小编典典

图像处理以提高 tesseract OCR 准确性

all

我一直在使用 tesseract
将文档转换为文本。文档的质量范围很广,我正在寻找有关哪种图像处理可能会改善结果的提示。我注意到高度像素化的文本——例如由传真机生成的文本——对于
tesseract 来说尤其难以处理——大概所有这些锯齿状边缘的字符都会混淆形状识别算法。

什么样的图像处理技术可以提高精度?我一直在使用高斯模糊来平滑像素化图像并看到一些小的改进,但我希望有一种更具体的技术可以产生更好的结果。比如说一个针对黑白图像调整的过滤器,它可以平滑不规则边缘,然后是一个过滤器,它可以增加对比度以使字符更加清晰。

对于图像处理新手的任何一般提示?


阅读 201

收藏
2022-08-02

共1个答案

小编典典

  1. 修复 DPI(如果需要) 300 DPI 最低
  2. 修复文本大小(例如 12 pt 应该没问题)
  3. 尝试修复文本行(去歪斜和去扭曲文本)
  4. 尝试修复图像的照明(例如图像没有暗部)
  5. 二值化和去噪图像

没有适用于所有情况的通用命令行(有时您需要模糊和锐化图像)。但是你可以试试Fred 的 ImageMagick Scripts 中的
TEXTCLEANER

如果你不喜欢命令行,也许你可以尝试使用开源
scantailor.sourceforge.net或商业
bookrestorer

2022-08-02