想找个C#下能调用的文字识别软件

时间: 2022-02-03 / 分类: C# / 浏览次数: 282 views / 0个评论 发表评论

找到个Asprise OCR,搞了半天才明白怎么装,装好了识别了一个M,然后今天想再研究一下,结果弹窗口了,多谢我的测试,要我访问他的官网

我真实无语了

只好又找到了一个tesseract-ocr,明天有空再研究研究

最近要做文字识别,不让直接用别人的接口,所以只能尝试去用开源的类库。tesseract-ocr是惠普公司开源的一个文字识别项目,通过它可以快速搭建图文识别系统,帮助我们开发出能识别图片的ocr系统。因为Windows环境开发,我也就必须在windows环境安装系统。

第一步:下载安装包并安装

https://github.com/tesseract-ocr/tesseract

下载好安装,和一般的程序差不多,一步一步点NEXT,但是有一个问题,网上有教程说直接可以在安装的时候选语言库,实际上呵呵,只能手工下载

可以翻墙下或者把链接弄到迅雷里面下,我下了中文的可以用迅雷下的

语言库地址为:https://github.com/tesseract-ocr/tessdata

将所需要的语言库下载下来,放在F:\Program Files (x86)\Tesseract-OCR\tessdata目录下

第二步,配置系统变量

桌面上此电脑->右键属性->点击高级系统设置->在打开的系统属性界面->高级下面点击环境变量->在环境变量界面选择系统变量中选中path,然后点下面的编辑,打开编辑环境变量界面新建一个C:\Program Files (x86)\Tesseract-OCR的值(这个路径就是安装路径,可以根据自己安装位置修改),然后确定

系统变量下面新建一个TESSDATA_PREFIX变量名,路径就是安装文件夹下面的tessdata文件夹的路径地址,复制过来即可

然后

运行CMD命令
输入:tesseract -v,可以看到版本信息
输入:tesseract –list-langs来查看本地Tesseract-OCR支持语言库

不行的话重启一次看看

第三步,测试

在cmd窗口中执行 tesseract test.jpg test.txt -l chi_sim+eng(chi_sim是中文识别包,equ是数学公式包,eng是英文包),即可将图片中的文字识别出来,但是效果貌似很差~可以自己训练字库,比较麻烦就懒得弄了,因为目前我就需要弄英文的

参考这些文章

https://www.cnblogs.com/wangkevin5626/p/9640165.html
https://www.cnblogs.com/jianqingwang/p/6978724.html
https://blog.csdn.net/sizhi_xht/article/details/104795600

发表评论

您的昵称 *

您的邮箱 *

您的网站