想找个C#下能调用的文字识别软件

时间: 2022-02-03 / 分类: C# / 浏览次数: 615 views / 0个评论发表评论

找到个Asprise OCR，搞了半天才明白怎么装，装好了识别了一个M，然后今天想再研究一下，结果弹窗口了，多谢我的测试，要我访问他的官网

我真实无语了

只好又找到了一个tesseract-ocr，明天有空再研究研究

最近要做文字识别，不让直接用别人的接口，所以只能尝试去用开源的类库。tesseract-ocr是惠普公司开源的一个文字识别项目，通过它可以快速搭建图文识别系统，帮助我们开发出能识别图片的ocr系统。因为Windows环境开发，我也就必须在windows环境安装系统。

第一步：下载安装包并安装

https://github.com/tesseract-ocr/tesseract

下载好安装，和一般的程序差不多，一步一步点NEXT，但是有一个问题，网上有教程说直接可以在安装的时候选语言库，实际上呵呵，只能手工下载

可以翻墙下或者把链接弄到迅雷里面下，我下了中文的可以用迅雷下的

语言库地址为：https://github.com/tesseract-ocr/tessdata

将所需要的语言库下载下来，放在F:\Program Files (x86)\Tesseract-OCR\tessdata目录下

第二步，配置系统变量

桌面上此电脑->右键属性->点击高级系统设置->在打开的系统属性界面->高级下面点击环境变量->在环境变量界面选择系统变量中选中path，然后点下面的编辑，打开编辑环境变量界面新建一个C:\Program Files (x86)\Tesseract-OCR的值（这个路径就是安装路径，可以根据自己安装位置修改），然后确定

系统变量下面新建一个TESSDATA_PREFIX变量名，路径就是安装文件夹下面的tessdata文件夹的路径地址，复制过来即可

然后

运行CMD命令
输入：tesseract -v，可以看到版本信息
输入：tesseract –list-langs来查看本地Tesseract-OCR支持语言库

不行的话重启一次看看

第三步，测试

在cmd窗口中执行 tesseract test.jpg test.txt -l chi_sim+eng（chi_sim是中文识别包，equ是数学公式包，eng是英文包），即可将图片中的文字识别出来，但是效果貌似很差~可以自己训练字库，比较麻烦就懒得弄了，因为目前我就需要弄英文的

参考这些文章

https://www.cnblogs.com/wangkevin5626/p/9640165.html
https://www.cnblogs.com/jianqingwang/p/6978724.html
https://blog.csdn.net/sizhi_xht/article/details/104795600

上一篇: 单独配置Chrome快捷方式代理上网的方法（/proxy-server=socks5:）

下一篇: C# 中的 if…else if…else 语句的语法

小货工作室