Windows上使用Tesseract-ocr识别藏文、天城体梵文
2021-03-05 04:27
标签:收费 logs 三种模式 命令行 and dig https 配置 doc Tesseract-ocr可以OCR识别藏文、梵文,识别为Unicode字符,效果还不错 1、下载Windows安装版 所有版本下载地址: https://digi.bib.uni-mannheim.de/tesseract/ 推荐使用5.0版本,4.0版本支持API,编程需要4.0版本。 有普通、best、fast三种模式可选,下载相应traineddata数据。可以下载4.0的数据。 还有很多其他语言,可以去探索。 注:汉语、日语、韩语等语言,Finereader的OCR效果要比Tesseract-ocr强很多,但是Finereader是收费的。西方语言还可以选用OmniPage,但是OmniPage也是收费的。网上有破解版,但是现在越来越不少找了。 如将traineddata拷贝至C:\Program Files\Tesseract-OCR\tessdata,则将TESSDATA_PREFIX设置为C:\Program Files\Tesseract-OCR\tessdata 参考网页: 识别藏文 识别梵文 tesseract 梵文图片 保存地址 -l san 进入安装目录 测试语言安装是否正确,有哪些训练语言 识别一张图片 经过优化处理的图片,可以显著提高识别率,参见: https://tesseract-ocr.github.io/tessdoc/ImproveQuality.html 处理图片推荐使用老马软件ComicEnhancerPro。 老马的博客地址:https://www.cnblogs.com/stronghorse/ Windows上使用Tesseract-ocr识别藏文、天城体梵文 标签:收费 logs 三种模式 命令行 and dig https 配置 doc 原文地址:https://www.cnblogs.com/yanghao2008/p/12907795.html
Windows安装版地址:
https://github.com/UB-Mannheim/tesseract/wiki
2、下载识别文件包
https://tesseract-ocr.github.io/tessdoc/Data-Files
3、配置TESSDATA_PREFIX变量
参考网页:https://blog.csdn.net/weixin_41982136/article/details/82747499
4、在命令行下使用
https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html
tesseract 藏文图片 保存地址 -l bod
cmd示例:
cd C:\Program Files\Tesseract-OCR
tesseract --list-langs
tesseract tib_001.jpg D:\tib_001 -l bod
经测试,识别铅字印刷的图片,效果还可以。
文章标题:Windows上使用Tesseract-ocr识别藏文、天城体梵文
文章链接:http://soscw.com/index.php/essay/60288.html