我一直在使用 tesseract 将文档转换为文本。文档的质量范围很广,我正在寻找有关哪种图像处理可能会改善结果的提示。我注意到高度像素化的文本——例如由传真机生成的文本——对于 tesseract 来说尤其难以处理——大概所有这些锯齿状边缘的字符都会混淆形状识别算法。
什么样的图像处理技术可以提高精度?我一直在使用高斯模糊来平滑像素化图像并看到一些小的改进,但我希望有一种更具体的技术可以产生更好的结果。比如说一个针对黑白图像调整的过滤器,它可以平滑不规则边缘,然后是一个过滤器,它可以增加对比度以使字符更加清晰。
对于图像处理新手的任何一般提示?
没有适用于所有情况的通用命令行(有时您需要模糊和锐化图像)。但是你可以试试Fred 的 ImageMagick Scripts 中的 TEXTCLEANER。
如果你不喜欢命令行,也许你可以尝试使用开源的 scantailor.sourceforge.net或商业的 bookrestorer。