Tesseract OCR - 图像识别类库


Apache
Windows
C/C++

软件简介

Tesseract OCR 该软件包包含一个OCR引擎 - libtesseract和一个命令行程序 - tesseract。 Tesseract
4增加了一个基于OCR引擎的新神经网络(LSTM),该引擎专注于线路识别,但仍然支持Tesseract 3的传统Tesseract
OCR引擎,该引擎通过识别字符模式来工作。通过使用Legacy OCR Engine模式(–oem 0)启用与Tesseract
3的兼容性。它还需要训练有素的数据文件,这些文件支持传统引擎,例如来自tessdata存储库的文件。

Tesseract 架构:

首席开发人员是Ray Smith。维护者是Zdenko Podobny。有关贡献者的列表,请参阅AUTHORS和GitHub的贡献者日志。

Tesseract 支持 unicode(UTF-8),可以“开箱即用” 识别100多种语言。

Tesseract支持各种输出格式:纯文本,hOCR(HTML),PDF,不可见文本的PDF,TSV。主分支还具有ALTO(XML)输出的实验支持。

您应该注意,在许多情况下,为了获得更好的OCR结果,需要提高您给Tesseract的图像质量。

该项目不包括GUI应用程序。如果您需要,请参阅3rdParty维基页面。

可以训练Tesseract识别其他语言。有关详细信息,请参阅Tesseract培训

支持的编译器:

  • GCC 4.8 and above
  • Clang 3.4 and above
  • MSVC 2015, 2017, 2019