博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
OCR引擎-Tesseract
阅读量:4677 次
发布时间:2019-06-09

本文共 1191 字,大约阅读时间需要 3 分钟。

光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。OCR技术非常专业,一般多是印刷、打印行业的从业人员使用,可以快速的将纸质资料转换为电子资料。关于中文OCR,目前国内水平较高的有清华文通、汉王、尚书,其产品各有千秋,价格不菲。国外OCR发展较早,像一些大公司,如IBM、微软、HP等,即使没有推出单独的OCR产品,但是他们的研发团队早已掌握核心技术,将OCR功能植入了自身的软件系统。对于我们程序员来说,一般用不到那么高级的,主要在开发中能够集成基本的OCR功能就可以了。

在linux下的OCR软件很多,常用的如下:

  • Tesseract 原本由惠普开发的图像识别类库tesseract-ocr已经更新到2.04, 就是最近Google支持的那个OCR。原先是惠普写的,现在Open source了。
    * GOCR 是一个开源的OCR光学识别程序。

Tesseract安装

Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从此尘封。数年以后,HP意识到,与其将Tesseract束之高阁,不如贡献给开源软件业,让其重焕新生--2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于Google对Tesseract进行改进、消除Bug、优化工作。Tesseract目前已作为开源项目发布在Google Project,其项目主页在这里查看,其最新版本3.0已经支持中文OCR,并提供了一个命令行工具。

安装信赖

sudo yum install gcc gcc-c++ make autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel

安装leptonica信赖

leptonica 是一个开源的图像处理与分析应用,安装 tesseract 前,需要先安装此软件。
我下载的是

./configuremakesudo make instasll

安装Tesseract

./autogen.sh./configure

移动到 tesseract-ocr/tessdata目录下

语法:

tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfiles...]

安装gocr

sudo yum install gocr

使用方式

转载于:https://www.cnblogs.com/jingwu/articles/5390544.html

你可能感兴趣的文章
windows8.1 装ubuntu16.04双系统 的记录
查看>>
C#图解教程 第十二章 数组
查看>>
linux常用命令2
查看>>
laravel 关联模型
查看>>
Http请求头安全策略
查看>>
.NET Core开源快速开发框架Colder发布 (NET Core2.1+AdminLTE版)
查看>>
第三次上机
查看>>
JSP页面中的精确到秒的时间控件
查看>>
C#4.0语言新功能及应用 (1)
查看>>
http协议状态码对照表
查看>>
在线电影功能需求
查看>>
appium 1.6.x版本去除安装Unlock、Setting
查看>>
xmapp中 使用admin的权限打开mysql时出现错误1045
查看>>
Objective-C--Runtime机制
查看>>
古文选读161篇--蔡礼旭老师选
查看>>
jquery easyui grid 表格特殊字符处理
查看>>
Android学习之ViewPager
查看>>
Spring笔记
查看>>
LeetCode Weekly Contest 126
查看>>
8封装的意义和拓展性
查看>>