CWSharp - .NET 中文分词组件


MIT
跨平台
C#

软件简介

CWSharp 是 .Net 的中文分词组件,支持中英文或者混合词组,提供自定义词典功能,支持Lucene.Net。

特性

  • 支持多种分词器

    • StandardTokenizer

    • BigramTokenizer

    • StopwordTokenizer

  • 可扩展的自定义分词接口

  • 支持自定义词典

  • 支持Lucene.Net分词

  • MIT授权协议

安装&编译

  • NuGet

    nuget install CWSharp

  • Package Manager Console

    PM> install-package CWSharp

算法

  • 基于正向最大匹配的算法。介绍

  • 词典使用DAWG结构,比传统的前缀树占用更少的内存空间。介绍

TODO

  • HMM算法,识别未登记词语以及人名、地名识别

  • 支持跨平台Windows、Linux

FAQ

  • 词典 - 如何生成DAWG词典文件,如何添加新的词组到DAWG词典中。

  • lucene.net插件 - Lucene.Net分词接口