想找个C#下能调用的文字识别软件
找到个Asprise OCR,搞了半天才明白怎么装,装好了识别了一个M,然后今天想再研究一下,结果弹窗口了,多谢我的测试,要我访问他的官网
我真实无语了
只好又找到了一个tesseract-ocr,明天有空再研究研究
最近要做文字识别,不让直接用别人的接口,所以只能尝试去用开源的类库。tesseract-ocr是惠普公司开源的一个文字识别项目,通过它可以快速搭建图文识别系统,帮助我们开发出能识别图片的ocr系统。因为Windows环境开发,我也就必须在windows环境安装系统。
第一步:下载安装包并安装
https://github.com/tesseract-ocr/tesseract
下载好安装,和一般的程序差不多,一步一步点NEXT,但是有一个问题,网上有教程说直接可以在安装的时候选语言库,实际上呵呵,只能手工下载
可以翻墙下或者把链接弄到迅雷里面下,我下了中文的可以用迅雷下的
语言库地址为:https://github.com/tesseract-ocr/tessdata
将所需要的语言库下载下来,放在F:\Program Files (x86)\Tesseract-OCR\tessdata目录下
第二步,配置系统变量
桌面上此电脑->右键属性->点击高级系统设置->在打开的系统属性界面->高级下面点击环境变量->在环境变量界面选择系统变量中选中path,然后点下面的编辑,打开编辑环境变量界面新建一个C:\Program Files (x86)\Tesseract-OCR的值(这个路径就是安装路径,可以根据自己安装位置修改),然后确定
系统变量下面新建一个TESSDATA_PREFIX变量名,路径就是安装文件夹下面的tessdata文件夹的路径地址,复制过来即可
然后
运行CMD命令
输入:tesseract -v,可以看到版本信息
输入:tesseract –list-langs来查看本地Tesseract-OCR支持语言库
不行的话重启一次看看
第三步,测试
在cmd窗口中执行 tesseract test.jpg test.txt -l chi_sim+eng(chi_sim是中文识别包,equ是数学公式包,eng是英文包),即可将图片中的文字识别出来,但是效果貌似很差~可以自己训练字库,比较麻烦就懒得弄了,因为目前我就需要弄英文的
参考这些文章
https://www.cnblogs.com/wangkevin5626/p/9640165.html
https://www.cnblogs.com/jianqingwang/p/6978724.html
https://blog.csdn.net/sizhi_xht/article/details/104795600