WO2009114967A1 - 基于移动扫描的图像处理方法及装置 - Google Patents

基于移动扫描的图像处理方法及装置 Download PDF

Info

Publication number
WO2009114967A1
WO2009114967A1 PCT/CN2008/070538 CN2008070538W WO2009114967A1 WO 2009114967 A1 WO2009114967 A1 WO 2009114967A1 CN 2008070538 W CN2008070538 W CN 2008070538W WO 2009114967 A1 WO2009114967 A1 WO 2009114967A1
Authority
WO
WIPO (PCT)
Prior art keywords
frame image
image
frame
text
scanning
Prior art date
Application number
PCT/CN2008/070538
Other languages
English (en)
French (fr)
Inventor
许宏志
邱光益
刘正军
徐波
沈月发
Original Assignee
东莞市步步高教育电子产品有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 东莞市步步高教育电子产品有限公司 filed Critical 东莞市步步高教育电子产品有限公司
Priority to PCT/CN2008/070538 priority Critical patent/WO2009114967A1/zh
Priority to CN2008801121063A priority patent/CN101896920A/zh
Publication of WO2009114967A1 publication Critical patent/WO2009114967A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/141Image acquisition using multiple overlapping images; Image stitching

Description

基于移动扫描的图像处理方法及装置 技术领域
本发明涉及移动扫描技术, 尤其涉及一种基于移动扫描的图像处理方法及 装置、 基于移动扫描的电子阅读笔及其实现方法、 基于移动拍照文本识别及翻 译手机及其实现方法。 背景技术
传统的光学字符阅读器 (OCR, Optical Character Reader ) 系统一般通过静 态扫描获得整幅文档的图像, 并借助计算机强大的存储和处理能力对图像进行 预处理和文本分离等操作, 最后由识别程序完成对文字或字符的识别。 而电子 阅读笔内部集成的小体积扫描传感器, 决定了其扫描方式只能是移动扫描。 所 谓移动扫描, 是指因为不能同时获得整幅文档的有效图像, 只能由使用者通过 手持的方式逐行逐字进行扫描, 得到的不是整幅图像, 而是局部图像的帧序列。
发明人在本发明的创造过程中, 发现现有的基于移动扫描的图像处理以及 文字识别技术, 存在如下缺点:
手的抖动等影响, 移动扫描得到的图像会产生倾斜、 尺度变化等变形, 单 帧图像中能存在多行文字, 等等。
另外, 由于扫描过程中手的移动速度小于传感器的扫描速度(如果移动过 快, 传感器得不到清晰的图像) , 扫描的图像帧之间必定会出现内容的重叠, 如果不进行有效的处理, 势必会造成输出结果的混乱。 在整个文字识别系统中, 识别环节最复杂, 耗时也最多。 在设计系统时为达到较好的实时性, 应尽量避 免这个环节上的重复运行。 设想一般情况下, 文档中每行约含 40个文字 (以中 文为例) , 移动扫描大约需要 2秒钟; 扫描传感器的扫描帧率为 20fps, 每帧包 含 5 个文字。 若釆用第一种方案, 先对每帧图像中的文字进行识别, 则总共需 要识别 2 X 20 X 5=200个文字, 而实际的文字只有 40个, 可见大部分时间都耗 费在重复的识别工作上, 显然会难于满足实时性的要求。 发明内容
本发明实施例提供一种基于移动扫描的图像处理方法及装置、 基于移动扫 描的电子阅读笔及其实现方法、 基于移动拍照文本识别及翻译手机及其实现方 法, 以提高图像处理的质量和文字识别的效率。
为了解决上述技术问题, 本发明实施例提供了一种基于移动扫描的图像处 理方法, 包括:
通过扫描传感器对文档从上到下、 从左至右逐行逐字进行扫描拍照, 得到 多幅单帧图像序列;
对扫描拍照得到的多幅单帧图像序列进行预处理;
将经过预处理的多幅单帧图像序列通过帧间配准和拼接, 得到包含文字信 息的图片。
相应地, 本发明实施例还提供了一种基于移动扫描的图像处理装置, 包括: 文本扫描模块, 通过扫描传感器对文档从上到下、 从左至右逐行逐字进行 扫描拍照, 得到多幅单帧图像序列;
图像处理模块, 包括: 单帧图像预处理单元和帧间配准拼接单元; 单帧图 像预处理单元用于对扫描拍照得到的多幅单帧图像序列进行预处理; 所述帧间 配准拼接单元将经过预处理的多幅单帧图像序列通过帧间配准和拼接, 得到包 含文字信息的图片。
本发明实施例还提供了一种基于移动扫描的电子阅读笔的实现方法, 包括: 通过内嵌在电子阅读笔中的扫描传感器对文档从上到下、 从左至右逐行逐 字进行扫描拍照, 得到多幅单帧图像序列;
对扫描拍照得到的多幅单帧图像序列进行预处理;
将经过预处理的多幅单帧图像序列通过帧间配准和拼接, 得到包含文字信 息的图片;
对所述包含文字信息的图片进行识别;
将识别结果进行后端处理后再进行显示。
相应地, 本发明实施例还提供了一种基于移动扫描的电子阅读笔, 包括: 文本扫描模块, 用于通过内嵌在电子阅读笔中的扫描传感器对文档从上到 下、 从左至右逐行逐字进行扫描拍照, 得到多幅单帧图像序列;
图像处理模块, 包括: 单帧图像预处理单元和帧间配准拼接单元; 单帧图 像预处理单元用于对扫描拍照得到的多幅单帧图像序列进行预处理; 所述帧间 配准拼接单元将经过预处理的多幅单帧图像序列通过帧间配准和拼接, 得到包 含文字信息的图片;
文本识别模块, 用于对所述包含文字信息的图片进行识别;
后端处理模块, 用于对识别结果进行后端处理;
结果显示模块, 用于将经过后端处理模块处理后的识别结果进行显示。 本发明实施例还提供了一种基于移动拍照文本识别及翻译手机的实现方 法, 包括:
通过内嵌在手机终端中的微距摄像头对文档从上到下、 从左至右逐行逐字 进行扫描拍照, 得到多幅单帧图像序列;
对扫描拍照得到的多幅单帧图像序列进行预处理;
将经过预处理的多幅单帧图像序列通过帧间配准和拼接, 得到包含文字信 息的图片;
由内嵌在手机内部的文字识别模块对所述包含文字信息的图片进行识别, 经后端处理后得到文字信息;
启动查询或者翻译引擎, 对所述识别得到的文字信息进行查询翻译; 将所述查询翻译结果进行显示。
相应地, 本发明实施例还提供了一种基于移动拍照文本识别及翻译手机, 包括:
文本扫描模块, 通过内嵌在手机终端中的微距摄像头对文档从上到下、 从 左至右逐行逐字进行扫描拍照, 得到多幅单帧图像序列;
图像处理模块, 包括: 单帧图像预处理单元和帧间配准拼接单元; 单帧图 像预处理单元用于对扫描拍照得到的多幅单帧图像序列进行预处理; 所述帧间 配准拼接单元将经过预处理的多幅单帧图像序列通过帧间配准和拼接, 得到包 含文字信息的图片;
文本识别模块, 由内嵌在手机内部的文字识别模块对所述包含文字信息的 图片进行识别;
后端处理模块, 用于对识别结果进行后端处理;
查询翻译模块, 启动查询或者翻译引擎, 对所述识别得到的文字信息进行 查询翻译;
结果显示模块, 用于将将所述查询翻译结果进行显示。 附图说明
图 1为本发明实施例提供的基于移动扫描的图像处理方法的流程示意图; 图 2 为本发明实施例提供的基于移动扫描的电子阅读笔实现方法的流程示 意图;
图 3 为本发明实施例提供的基于移动拍照文本识别及翻译手机实现方法的 流程示意图;
图 4为本发明实施例提供的基于移动扫描的图像处理装置的组成示意图; 图 5为本发明实施例提供的基于移动扫描的电子阅读笔的组成示意图; 图 6 为本发明实施例提供的基于移动拍照文本识别及翻译手机的组成示意 图;
图 7为本发明实施例提供的如图 4、 图 5、 图 6中所示的图像处理模块的组 成示意图;
图 8为本发明实施例提供的如图 7 中所示的单帧图像预处理单元的组成示 意图;
图 9为本发明实施例提供的如图 7 中所示的帧间配准拼接单元的组成示意 图。 具体实施方式
本发明实施例提供了一种基于移动扫描的图像处理方法及装置、 基于移动 扫描的电子阅读笔及其实现方法、 基于移动拍照文本识别及翻译手机及其实现 方法, 提高了图像处理的质量和文字识别的效率。
参考图 1 ,是本发明实施例提供的基于移动扫描的图像处理方法的流程示意 图。
如图所示, 在步骤 100, 通过扫描传感器对文档从上到下、 从左至右逐行逐 字进行扫描拍照, 得到多幅单帧图像序列;
由于手的抖动等影响, 移动扫描得到的图像会产生倾斜、 尺度变化等变形, 单帧图像中能存在多行文字,等等。 所以,在实现基于移动扫描的 OCR技术时, 必须有针对性地考虑文本图像的预处理环节, 因此在步骤 101 ,对扫描拍照得到 的多幅单帧图像序列进行预处理;
具体地, 步骤 101包括: 首先在步骤 1010, 对所述单帧图像进行二值化处理, 图像的二值化处理就 是把扫描图像分成对象和背景两个区域, 求其阔值, 去掉不必要的噪声和干扰。 因此可以说, 二值化的过程, 就是阈值选取的过程。
在步骤 1011 , 对所述单帧图像进行倾斜校正处理; 在文字图像扫描输入的 过程中, 图像或多或少会出现某种程度的倾斜, 这种倾斜不仅会给下一步文本 行分离造成困难, 也会影响最终的文字识别的正确率。 所以, 倾斜校正也是文 字识别过程中必须要考虑的一个重要环节。 通常情况下, 应快速准确测量出扫 描图像的倾斜角度, 从而对图像进行旋转校正。
检测文本倾斜角的基本思路是, 文本中任何水平方向和垂直方向的线条或 者文字行的倾斜方向都与文本的倾斜方向保持一致, 因此可以通过这些线条和 文字行来估计文本的倾斜角度。
在步骤 1012, 对所述单帧图像进行平滑去噪处理; 经过倾斜校正后的文字 图像会附加一定的噪声, 这种噪声主要表现为斑点和空洞。 其中斑点指的是图 像背景中的污点、 毛刺之类的与文本图中的文本不相干的内容, 一般相对笔划 而言较小, 成点状。 而所谓空洞指的是文字笔划中的小的像素缺失, 一般被 0 像素 (即黑像素) 包围。
关于噪声的处理方法有很多, 主要有邻域相关法、 均值滤波法以及形态学 的方法等。
在步骤 1013 , 对所述单帧图像进行文本行分离处理; 前面的步骤已经对文 本图像进行了二值化、 纠偏和平滑处理, 得到了质量较好的二值图像。 因此, 在行切分阶段只需考虑比较理想的情况: 文本经过了倾斜校正, 行方向基本与 水平方向一致; 行与行之间没有交迭; 行与行之间的距离基本一样。
对二值图像的文本行分离过程为: 对于糾偏后的二值图像, 统计水平方向 每行中的前景点数量, 生成投影曲线。 由于文本行与行之间存在明显的间距, 得到的投影曲线必定是连续非零像素段、 连续零像素段相互交迭, 其中非零像 素段表示文本行, 零像素段表示行间距。 找出靠近图像正中间的行并进行切分, 就切分出了感兴趣的行。
在步骤 1014, 对所述单帧图像进行规格化处理; 在移动扫描的过程中, 由 于手的抖动, 扫描得到的图像容易产生变形, 导致连续两帧图像中文字的字体 大小产生变化,从而使切分出来的文字行图像规格不一样(指图像产生了缩放)。 为了便于下一步进行文字行图像的配准和拼接, 可把图像规格化成相同大小。 可用插值法对图像进行插值放大或缩小, 以保证所有切分出的文本行图像高度 一致。
以上对扫描拍照得到的多幅单帧图像序列进行预处理的步骤完成后, 继续 以下流程:
在步骤 102 , 将经过预处理的多幅单帧图像序列通过帧间配准和拼接,得到 包含文字信息的图片。
需要说明的是, 把一幅图像看作是像素点的集合, 图像配准德过程就是寻 求一个点集到另一个点集之间的映射的过程, 即找出两幅图像中具有相同性质 的点, 并计算其对应的变换关系。 这种变换可以是简单的刚体变换(即图像之 间只存在旋转和平移) , 也可以是较复杂的弹性变换(图像拉伸、 缩放、 扭曲 变形等) 。
本发明实施例提供的基于移动扫描的图像处理方法, 通过扫描传感器对文 档从上到下、 从左至右逐行逐字进行扫描拍照, 得到多幅单帧图像序列, 然后 对单帧图像进行有针对性地考虑文本图像的预处理环节, 最后通过图像配准和 拼接得到完整的包含文字信息的图片, 大大提高了图像处理的质量。
参考图 2,是本发明实施例提供的基于移动扫描的电子阅读笔实现方法的流 程示意图;
如图所示, 在步骤 200 , 通过内嵌在电子阅读笔中的扫描传感器对文档从上 到下、 从左至右逐行逐字进行扫描拍照, 得到多幅单帧图像序列;
由于手的抖动等影响, 移动扫描得到的图像会产生倾斜、 尺度变化等变形, 单帧图像中能存在多行文字,等等。 所以,在实现基于移动扫描的 OCR技术时, 必须有针对性地考虑文本图像的预处理环节, 因此在步骤 201 ,对扫描拍照得到 的多幅单帧图像序列进行预处理;
具体地, 步骤 201包括:
首先在步骤 2010, 对所述单帧图像进行二值化处理, 图像的二值化处理就 是把扫描图像分成对象和背景两个区域, 求其阔值, 去掉不必要的噪声和干扰。 因此可以说, 二值化的过程, 就是阈值选取的过程。
在步骤 2011 , 对所述单帧图像进行倾斜校正处理; 在文字图像扫描输入的 过程中, 图像或多或少会出现某种程度的倾斜, 这种倾斜不仅会给下一步文本 行分离造成困难, 也会影响最终的文字识别的正确率。 所以, 倾斜校正也是文 字识别过程中必须要考虑的一个重要环节。 通常情况下, 应快速准确测量出扫 描图像的倾斜角度, 从而对图像进行旋转校正。
检测文本倾斜角的基本思路是, 文本中任何水平方向和垂直方向的线条或 者文字行的倾斜方向都与文本的倾斜方向保持一致, 因此可以通过这些线条和 文字行来估计文本的倾斜角度。
在步骤 2012, 对所述单帧图像进行平滑去噪处理; 经过倾斜校正后的文字 图像会附加一定的噪声, 这种噪声主要表现为斑点和空洞。 其中斑点指的是图 像背景中的污点、 毛刺之类的与文本图中的文本不相干的内容, 一般相对笔划 而言较小, 成点状。 而所谓空洞指的是文字笔划中的小的像素缺失, 一般被 0 像素 (即黑像素) 包围。
关于噪声的处理方法有很多, 主要有邻域相关法、 均值滤波法以及形态学 的方法等。
在步骤 2013 , 对所述单帧图像进行文本行分离处理; 前面的步骤已经对文 本图像进行了二值化、 纠偏和平滑处理, 得到了质量较好的二值图像。 因此, 在行切分阶段只需考虑比较理想的情况: 文本经过了倾斜校正, 行方向基本与 水平方向一致; 行与行之间没有交迭; 行与行之间的距离基本一样。
对二值图像的文本行分离过程为: 对于糾偏后的二值图像, 统计水平方向 每行中的前景点数量, 生成投影曲线。 由于文本行与行之间存在明显的间距, 得到的投影曲线必定是连续非零像素段、 连续零像素段相互交迭, 其中非零像 素段表示文本行, 零像素段表示行间距。 找出靠近图像正中间的行并进行切分, 就切分出了感兴趣的行。
在步骤 2014, 对所述单帧图像进行规格化处理; 在移动扫描的过程中, 由 于手的抖动, 扫描得到的图像容易产生变形, 导致连续两帧图像中文字的字体 大小产生变化,从而使切分出来的文字行图像规格不一样(指图像产生了缩放)。 为了便于下一步进行文字行图像的配准和拼接, 可把图像规格化成相同大小。 可用插值法对图像进行插值放大或缩小, 以保证所有切分出的文本行图像高度 一致。
以上对扫描拍照得到的多幅单帧图像序列进行预处理的步骤完成后, 继续 以下流程: 在步骤 202, 将经过预处理的多幅单帧图像序列通过帧间配准和拼接,得到 包含文字信息的图片;
需要说明的是, 把一幅图像看作是像素点的集合, 图像配准德过程就是寻 求一个点集到另一个点集之间的映射的过程, 即找出两幅图像中具有相同性质 的点, 并计算其对应的变换关系。 这种变换可以是简单的刚体变换(即图像之 间只存在旋转和平移) , 也可以是较复杂的弹性变换(图像拉伸、 缩放、 扭曲 变形等) 。
在步骤 203 , 电子阅读笔的文本识别模块启动 OCR程序或者驱动方法, 对 所述包含文字信息的图片进行识别;
在步骤 204, 对所述文本识别结果进行后端处理, 具体地, 后端处理包括内 码转换和预言种类判断。
内码转换即将所述图片转换成 UNICODE编码或 GBK编码;语言种类判断, 即判断当前文字属于单语种还是多语种混排。
在步骤 205, 显示所述文本识别的结果, 显示的方式有通过声音显示, 或者 通过视觉信号显示等等。
本发明实施例提供的基于移动扫描的电子阅读笔实现方法, 通过内嵌在电 子阅读笔中的扫描传感器对文档从上到下、 从左至右逐行逐字进行扫描拍照, 得到多幅单帧图像序列, 然后对单帧图像进行有针对性地考虑文本图像的预处 理环节, 最后通过图像配准和拼接得到完整的包含文字信息的图片, 大大提高 了图像处理的质量, 从而提高了文本识别的效率。
参考图 3 ,是本发明实施例提供的基于移动拍照文本识别及翻译手机实现方 法的流程示意图;
如图所示, 在步骤 300, 通过内嵌在手机终端中的微距摄像头对文档从上到 下、 从左至右逐行逐字进行扫描拍照, 得到多幅单帧图像序列;
由于手的抖动等影响, 移动扫描得到的图像会产生倾斜、 尺度变化等变形, 单帧图像中能存在多行文字,等等。 所以,在实现基于移动扫描的 OCR技术时, 必须有针对性地考虑文本图像的预处理环节, 因此在步骤 301 ,对扫描拍照得到 的多幅单帧图像序列进行预处理;
具体地, 步骤 301包括:
首先在步骤 3010, 对所述单帧图像进行二值化处理, 图像的二值化处理就 是把扫描图像分成对象和背景两个区域, 求其阔值, 去掉不必要的噪声和干扰。 因此可以说, 二值化的过程, 就是阈值选取的过程。
在步骤 3011 , 对所述单帧图像进行倾斜校正处理; 在文字图像扫描输入的 过程中, 图像或多或少会出现某种程度的倾斜, 这种倾斜不仅会给下一步文本 行分离造成困难, 也会影响最终的文字识别的正确率。 所以, 倾斜校正也是文 字识别过程中必须要考虑的一个重要环节。 通常情况下, 应快速准确测量出扫 描图像的倾斜角度, 从而对图像进行旋转校正。
检测文本倾斜角的基本思路是, 文本中任何水平方向和垂直方向的线条或 者文字行的倾斜方向都与文本的倾斜方向保持一致, 因此可以通过这些线条和 文字行来估计文本的倾斜角度。
在步骤 3012, 对所述单帧图像进行平滑去噪处理; 经过倾斜校正后的文字 图像会附加一定的噪声, 这种噪声主要表现为斑点和空洞。 其中斑点指的是图 像背景中的污点、 毛刺之类的与文本图中的文本不相干的内容, 一般相对笔划 而言较小, 成点状。 而所谓空洞指的是文字笔划中的小的像素缺失, 一般被 0 像素 (即黑像素) 包围。
关于噪声的处理方法有很多, 主要有邻域相关法、 均值滤波法以及形态学 的方法等。
在步骤 3013 , 对所述单帧图像进行文本行分离处理; 前面的步骤已经对文 本图像进行了二值化、 纠偏和平滑处理, 得到了质量较好的二值图像。 因此, 在行切分阶段只需考虑比较理想的情况: 文本经过了倾斜校正, 行方向基本与 水平方向一致; 行与行之间没有交迭; 行与行之间的距离基本一样。
对二值图像的文本行分离过程为: 对于糾偏后的二值图像, 统计水平方向 每行中的前景点数量, 生成投影曲线。 由于文本行与行之间存在明显的间距, 得到的投影曲线必定是连续非零像素段、 连续零像素段相互交迭, 其中非零像 素段表示文本行, 零像素段表示行间距。 找出靠近图像正中间的行并进行切分, 就切分出了感兴趣的行。
在步骤 3014, 对所述单帧图像进行规格化处理; 在移动扫描的过程中, 由 于手的抖动, 扫描得到的图像容易产生变形, 导致连续两帧图像中文字的字体 大小产生变化,从而使切分出来的文字行图像规格不一样(指图像产生了缩放)。 为了便于下一步进行文字行图像的配准和拼接, 可把图像规格化成相同大小。 可用插值法对图像进行插值放大或缩小, 以保证所有切分出的文本行图像高度 一致。
以上对扫描拍照得到的多幅单帧图像序列进行预处理的步骤完成后, 继续 以下流程:
在步骤 302, 将经过预处理的多幅单帧图像序列通过帧间配准和拼接,得到 包含文字信息的图片;
需要说明的是, 把一幅图像看作是像素点的集合, 图像配准德过程就是寻 求一个点集到另一个点集之间的映射的过程, 即找出两幅图像中具有相同性质 的点, 并计算其对应的变换关系。 这种变换可以是简单的刚体变换(即图像之 间只存在旋转和平移) , 也可以是较复杂的弹性变换(图像拉伸、 缩放、 扭曲 变形等) 。
在步骤 303 , 由内嵌在手机内部的文本识别模块启动 OCR程序或者驱动方 法, 对所述包含文字信息的图片进行识别;
在步骤 304, 对所述文本识别结果进行后端处理; 具体地, 后端处理包括内 码转换和预言种类判断。
内码转换即将所述图片转换成 UNICODE编码或 GBK编码;语言种类判断, 即判断当前文字属于单语种还是多语种混排。
在步骤 305, 启动查询或翻译引擎, 开始查询或者翻译; 由于在手机内部载 入了翻译模块, 可以调用与文本识别结果相应的单词或者语句;
在步骤 306, 显示所述查询或者翻译的结果。 显示的方式有通过声音显示, 或者通过视觉信号显示等等。
本发明实施例提供的基于移动拍照文本识别及翻译手机实现方法, 通过内 嵌在手机终端中的微距摄像头对文档从上到下、 从左至右逐行逐字进行扫描拍 照, 得到多幅单帧图像序列, 然后对单帧图像进行有针对性地考虑文本图像的 预处理环节, 最后通过图像配准和拼接得到完整的包含文字信息的图片, 大大 提高了图像处理的质量, 从而提高了文本识别, 以及查询翻译的效率。
参见图 4,是本发明实施例提供的基于移动扫描的图像处理装置的组成示意 图;
本发明实施例提供的基于移动扫描的图像处理装置, 包括:
文本扫描模块 1 , 通过扫描传感器对文档从上到下、从左至右逐行逐字进行 扫描拍照, 得到多幅单帧图像序列;
图像处理模块 2, 包括: 单帧图像预处理单元和帧间配准拼接单元; 单帧图 像预处理单元用于对扫描拍照得到的多幅单帧图像序列进行预处理; 所述帧间 配准拼接单元将经过预处理的多幅单帧图像序列通过帧间配准和拼接, 得到包 含文字信息的图片。
图 7为本发明实施例提供的如图 4中所示的图像处理模块 2的组成示意图; 由于手的抖动等影响, 移动扫描得到的图像会产生倾斜、 尺度变化等变形, 单 帧图像中能存在多行文字, 等等。 所以, 在实现基于移动扫描的 OCR技术时, 必须有针对性地考虑文本图像的预处理环节, 在此通过所述单帧图像处理单元 20对扫描拍照得到的多幅单帧图像序列进行预处理; 根据实际情况, 单帧图像 处理单元 20预处理环节可以细分为二值化、倾斜校正、平滑去噪、文本行分离、 规格化处理等五个步骤;
另外, 由于扫描过程中手的移动速度小于传感器的扫描速度(如果移动过 快, 传感器得不到清晰的图像), 扫描的图像帧之间必定会出现内容的重叠, 如 果不进行有效的处理, 势必会造成输出结果的混乱, 因此, 本发明实施例通过 帧间配准拼接单元 21将经过预处理的多幅单帧图像序列通过帧间配准和拼接, 得到包含文字信息的图片。
参见图 8, 是为本发明实施例提供的如图 7 中所示的单帧图像预处理单元 20的组成示意图。
所述单帧图像预处理单元 20包括:
二值化处理子单元 200, 用于对所述单帧图像进行二值化处理;
需要说明的是, 图像的二值化处理就是把扫描图像分成对象和背景两个区 域, 求其阔值, 去掉不必要的噪声和干扰。 因此可以说, 二值化的过程, 就是 阔值选取的过程。
阔值是把背景和前景区分开的标尺, 其选取的原则是, 要在尽可能保存文 字信息的同时又尽可能地削除噪声的干扰。 根据阔值选取和作用的范围可以将 二值化算法分为全局阔值法和局部阔值法两类。 全局阔值法由文字图像的直方 图或灰度的空间分布确定整幅图像的阈值, 并根据此阈值实现灰度图像到二值 化图像的转化。 常用的全局阔值法包括直方图法和最大类间方差法, 直方图法 是指直接从原图像的灰度分布直方图上确定阔值, 包括 p-tile法、 最频值法和直 方图凹面分析法等; 最大类间方差法主要指 Otus法。 局部局值法主要是通过定 义考察点的邻域, 由邻域计算模板来实现考察点灰度与邻域点的比较。 常用的 局部阈值法有 Bernsen法、 Yanowitz和 Bmckstein法、 Sauvola和 Pietikainen法 等。 对于目标和背景比较清楚的图像, 全局阔值法可以取得较好结果, 但是如 果图像的光照不均匀, 或是目标灰度变化率很大, 就应该考虑局部阔值法。 实 际的 OCR系统中对文字图像的二值化常釆用 Otsu法、 Bernsen法等方法。
倾斜校正处理子单元 201 , 用于对所述单帧图像进行倾斜校正处理; 检测文本倾斜角的基本思路是, 文本中任何水平方向和垂直方向的线条或 者文字行的倾斜方向都与文本的倾斜方向保持一致, 因此可以通过这些线条和 文字行来估计文本的倾斜角度, 倾斜校正处理子单元 201 主要通过以下三种方 法进行校正:
1、 基于矩形块的文档图像倾斜校正方法: 矩形子块结构是构成文档版面的 最小基元, 这些矩形子块的上、 下边为水平线条, 左、 右边为垂直线条。 当文 档图像产生倾斜时, 矩形子块的边线也会产生相应的倾斜角度。 通过检测矩形 子块边线, 然后计算出边线的方程, 就可以得到文档图像的倾斜角度。 这种方 法主要是针对大版面的文档图像, 因此不适合在电子扫描笔系统中应用。
2、 基于水平线和垂直线的文档倾斜校正方法: 水平线条和垂直线条在文档 中比较普遍(如版面基元间的分割线等) , 特别是在表格文档中 (如票据、 报 表等) , 水平线条和垂直线运用更为广泛。 通过检测这些线条, 计算出它的直 线方程, 然后算出文档的倾斜角度。 我们扫描的对象主要是文字, 所以这种方 法也不适合。
3、 基于文本行的文档倾斜校正方法: 通常文本行是沿水平方向排列的, 且 相邻文本行之间的距离相对固定, 因此检测页面图像的倾角不必对整个图像进 行扫描计算, 只需选择合适的文本子区域, 其文本行的方向角对应于整个文档 图像的倾斜角。
目前常用的基于文本行的图像倾斜角检测算法主要有 Hough变换法、 投影 方法、 近 4|5法 ( nearst-neighbor ) 、 BAG(Block Adjacency Graph)算法, 基于子空 间直线检测的算法, 基于 Fourier谱分析的算法, 基于梯度分析的算法和神经网 络法等等。 其中 Hough变换法和投影法常用来检测文本图像的倾斜角。
平滑去噪处理子单元 202, 用于对所述单帧图像进行平滑去噪处理; 经过倾斜校正后的文字图像会附加一定的噪声, 这种噪声主要表现为斑点 和空洞。 其中斑点指的是图像背景中的污点、 毛刺之类的与文本图中的文本不 相干的内容, 一般相对笔划而言较小, 成点状。 而所谓空洞指的是文字笔划中 的小的像素缺失, 一般被 0像素 (即黑像素) 包围。
平滑去噪处理子单元 202对图像进行平滑去噪处理的方法有很多, 主要有 邻域相关法、 均值滤波法以及形态学的方法等。
文本行分离处理子单元 203 , 用于对所述单帧图像进行文本行分离处理; 具体地, 对于纠偏后的二值图像, 统计水平方向每行中的前景点数量, 生 成投影曲线。 由于文本行与行之间存在明显的间距, 得到的投影曲线必定是连 续非零像素段、 连续零像素段相互交迭, 其中非零像素段表示文本行, 零像素 段表示行间距。 找出靠近图像正中间的行并进行分离, 就切分出了感兴趣的行。
规格化处理子单元 204, 用于对所述单帧图像进行规格化处理。
在移动扫描的过程中, 由于手的抖动, 扫描得到的图像容易产生变形, 导 致连续两帧图像中文字的字体大小产生变化, 从而使切分出来的文字行图像规 格不一样(指图像产生了缩放) 。 为了便于下一步进行文字行图像的配准和拼 接, 可把图像规格化成相同大小。 规格化处理子单元 204用插值法对图像进行 插值放大或缩小, 以保证所有切分出的文本行图像高度一致。
参见图 9为本发明实施例提供的如图 7 中所示的帧间配准拼接单元的组成 示意图。
所述帧间配准拼接单元 21包括:
配准子单元 210, 用于以行为单位, 将该行所在的经过预处理的多幅单帧图 像序列进行帧间配准, 切除多幅单帧图像中重叠的部分;
拼接子单元 211 ,用于将多幅单帧图像不重叠的部分拼接成完整的包含文字 信息的图片。
需要说明的是, 配准子单元 210进行图像配准方法大致分为以下三类。
1、 基于特征的图像配准。 首先提取图像信息的特征, 然后以这些特征为模 型进行配准。 由于图像的特征点比图像的像素点要少很多, 因此大大减少了配 准过程的计算量, 而特征点的提取过程可以减少噪声的影响, 对灰度变化、 图 像形变以及遮挡等都有较好的适应能力。
2、 基于统计的配准方法。 基于统计的配准方法通常是指最大互信息的图像 配准方法, 该方法的突出优点是鲁棒性好、 配准精度高、 人工干预少。 基于互 信息的图像配准是用两幅图像的联合概率分布与完全独立时的概率分布的广义 距离来估计互信息, 并作为多模态图像配准的测度。 当两幅图像达到最佳配准 时, 它们的对应象素的互信息应为最大。
3、 基于图像灰度的配准方法。 通常直接利用整幅图像的灰度信息, 建立两 幅图像之间的相似性度量, 然后釆用某种搜索方法, 寻找使相似性度量值最大 或最小的变换模型的参数值。 常用的相似性度量有: 互相关、 位相相关、 两幅 图像灰度的平方差之和等。 为了减少搜索空间和配准时间, 人们相继提出了多 子区域相关配准算法、 序贯相似性检测算法、 两级模板配准算法、 分层序贯配 准算法等各种快速配准算法。
本发明实施例提供的基于移动扫描的图像处理装置, 通过扫描传感器对文 档从上到下、 从左至右逐行逐字进行扫描拍照, 得到多幅单帧图像序列, 然后 对单帧图像进行有针对性地考虑文本图像的预处理环节, 最后通过图像配准和 拼接得到完整的包含文字信息的图片, 大大提高了图像处理的质量。
参见图 5 , 是本发明实施例提供的基于移动扫描的电子阅读笔的组成示意 图;
所述电子阅读笔包括:
文本扫描模块 1 ,用于通过内嵌在电子阅读笔中的扫描传感器对文档从上到 下、 从左至右逐行逐字进行扫描拍照, 得到多幅单帧图像序列;
图像处理模块 2, 包括: 单帧图像预处理单元 20和帧间配准拼接单元 21 ; 单帧图像预处理单元 20用于对扫描拍照得到的多幅单帧图像序列进行预处理; 所述帧间配准拼接单元 21将经过预处理的多幅单帧图像序列通过帧间配准和拼 接, 得到包含文字信息的图片; 需要说明的是, 该图像处理模块 2 的功能和作 用与图 4所示的基于移动扫描的图像处理装置中图像处理模块 2的功能和作用 一致, 其包括的单帧图像预处理单元 20和帧间配准拼接单元 21 的功能和作用 也参见上述描述, 在此不再赘述。
文本识别模块 3 , 用于对所述包含文字信息的图片进行识别;
后端处理模块 4, 用于对识别结果进行后端处理; 具体地, 后端处理包括内 码转换和预言种类判断。
内码转换即将所述图片转换成 UNICODE编码或 GBK编码;语言种类判断, 即判断当前文字属于单语种还是多语种混排。
结果显示模块 5, 用于将经过后端处理模块处理后的识别结果进行显示。 本发明实施例提供的基于移动扫描的电子阅读笔, 通过内嵌在电子阅读笔 中的扫描传感器对文档从上到下、 从左至右逐行逐字进行扫描拍照, 得到多幅 单帧图像序列, 然后对单帧图像进行有针对性地考虑文本图像的预处理环节, 最后通过图像配准和拼接得到完整的包含文字信息的图片, 大大提高了图像处 理的质量, 从而提高了文本识别的效率。
参见图 6 为本发明实施例提供的基于移动拍照文本识别及翻译手机的组成 示意图;
文本扫描模块 1 , 用于通过内嵌在手机终端中的微距摄像头对文档从上到 下、 从左至右逐行逐字进行扫描拍照, 得到多幅单帧图像序列;
图像处理模块 2, 包括: 单帧图像预处理单元 20和帧间配准拼接单元 21 ; 单帧图像预处理单元 20用于对扫描拍照得到的多幅单帧图像序列进行预处理; 所述帧间配准拼接单元 21将经过预处理的多幅单帧图像序列通过帧间配准和拼 接, 得到包含文字信息的图片; 需要说明的是, 该图像处理模块 2 的功能和作 用与图 4所示的基于移动扫描的图像处理装置中图像处理模块 2的功能和作用 一致, 其包括的单帧图像预处理单元 20和帧间配准拼接单元 21 的功能和作用 也参见上述描述, 在此不再赘述。
文本识别模块 3 ,由内嵌在手机内部的文字识别模块 3对所述包含文字信息 的图片进行识别;
后端处理模块 4, 用于对识别结果进行后端处理; 具体地, 后端处理包括内 码转换和预言种类判断。
内码转换即将所述图片转换成 UNICODE编码或 GBK编码;语言种类判断, 即判断当前文字属于单语种还是多语种混排。
查询翻译模块 5, 启动查询或者翻译引擎,对所述识别得到的文字信息进行 查询翻译;
结果显示模块 6, 用于将将所述查询翻译结果进行显示。
本发明实施例提供的基于移动拍照文本识别及翻译手机, 通过内嵌在手机 终端中的微距摄像头对文档从上到下、 从左至右逐行逐字进行扫描拍照, 得到 多幅单帧图像序列, 然后对单帧图像进行有针对性地考虑文本图像的预处理环 节, 最后通过图像配准和拼接得到完整的包含文字信息的图片, 大大提高了图 像处理的质量, 从而提高了文本识别, 以及查询翻译的效率。
以上所揭露的仅为本发明实施例而已, 当然不能以此来限定本发明之权利 范围, 因此依本发明权利要求所作的等同变化, 仍属本发明所涵盖的范围。

Claims

权 利 要 求
1、 一种基于移动扫描的图像处理方法, 其特征在于, 包括:
通过扫描传感器对文档从上到下、 从左至右逐行逐字进行扫描拍照, 得到 多幅单帧图像序列;
对扫描拍照得到的多幅单帧图像序列进行预处理;
将经过预处理的多幅单帧图像序列通过帧间配准和拼接, 得到包含文字信 息的图片。
2、 根据权利要求 1所述的基于移动扫描的图像处理方法, 其特征在于, 所 述对扫描拍照得到的多幅单帧图像序列进行预处理的步骤包括:
对所述单帧图像进行二值化处理; 或 /和
对所述单帧图像进行倾斜校正处理; 或 /和
对所述单帧图像进行平滑去噪处理; 或 /和
对所述单帧图像进行文本行分离处理; 或 /和
对所述单帧图像进行规格化处理。
3、 如权利要求 2所述的基于移动扫描的图像处理方法, 其特征在于, 所述 对单帧图像进行二值化处理的步骤包括:
扫描拍照得到的单帧图像分成对象和背景两个区域;
求所述对象和背景区域的域值;
去掉所述单帧图像的噪声和干扰。
4、 如权利要求 2所述的基于移动扫描的图像处理方法, 其特征在于, 对所 述单帧图像进行倾斜校正处理的方式包括: 基于矩形块的图像倾斜校正、 基于 水平线和垂直线的图像倾斜校正、 基于文本行的图像倾斜校正。
5、 如权利要求 4所述的基于移动扫描的图像处理方法, 其特征在于, 所述 基于矩形块的图像倾斜校正的步骤包括:
检测单帧图像的矩形子块边线; 计算所述矩形子块边线的方程, 得到单帧图像的倾斜角度;
根据所述倾斜角度, 对所述单帧图片旋转相应的角度, 得到校正后的单帧 图像。
6、 如权利要求 4所述的基于移动扫描的图像处理方法, 其特征在于, 所述 基于水平线和垂直线的图像倾斜校正的步骤包括:
检测单帧图像的水平线和垂直线;
计算关于所述水平线和垂直线的直线方程, 得到单帧图像的倾斜角度; 根据所述倾斜角度, 对所述单帧图片旋转相应的角度, 得到校正后的单帧 图像。
7、 如权利要求 4所述的基于移动扫描的图像处理方法, 其特征在于, 所述 基于文本行的图像倾斜校正的步骤包括:
检测单帧图像的文本行的方向角;
计算所述文本行的方向角与整幅单帧图像之间的夹角, 得到单帧图像的倾 斜角度;
根据所述倾斜角度, 对所述单帧图片旋转相应的角度, 得到校正后的单帧 图像。
8、 如权利要求 3所述的基于移动扫描的图像处理方法, 其特征在于, 对所 述单帧图像进行文本行分离处理的步骤包括:
对于单帧图像, 统计水平方向每行中的前景点数量, 生成投影曲线; 根据所述投影曲线, 找到图像的正中间的行进行分离处理, 得到经过文本 行分离处理后的图片。
9、 如权利要求 3所述的基于移动扫描的图像处理方法, 其特征在于, 对所 述单帧图像进行规格化处理的步骤包括:
用插值法对所述单帧图像进行放大或缩小, 得到高度和大小一致的单帧图 像。
10、 根据权利要求 1至 9所述的基于移动扫描的图像处理方法, 其特征在 于, 所述将经过预处理的多幅单帧图像序列通过帧间配准和拼接, 得到包含文 字信息的图片的步骤包括:
以行为单位, 将该行所在的经过预处理的多幅单帧图像序列进行帧间配准 , 切除多幅单帧图像中重叠的部分;
将多幅单帧图像不重叠的部分拼接成完整的包含文字信息的图片。
11、 根据权利要求 10所述的基于移动扫描的图像处理方法, 其特征在于, 所述帧间配准包括:
提取所述单帧图像信息的特征;
以所述特征为模型进行配准。
12、 根据权利要求 10所述的基于移动扫描的图像处理方法, 其特征在于, 所述帧间配准包括:
以两幅单帧图像的联合概率分布与完全独立时的概率分布之间的广义距 离, 估算两幅单帧图像之间的互信息;
将所述两幅单帧图像之间的互信息作为多模态图像配准的测度进行配准。
13、 根据权利要求 10所述的基于移动扫描的图像处理方法, 其特征在于, 所述帧间配准包括:
利用单帧图像的灰度信息, 建立两幅图像之间的相似性度量;
搜索相似性度量值最大或最小的变换模型的参数值;
以所述参数值进行配准。
14、 一种基于移动扫描的电子阅读笔的实现方法, 其特征在于, 包括: 通过内嵌在电子阅读笔中的扫描传感器对文档从上到下、 从左至右逐行逐 字进行扫描拍照, 得到多幅单帧图像序列;
对扫描拍照得到的多幅单帧图像序列进行预处理;
将经过预处理的多幅单帧图像序列通过帧间配准和拼接, 得到包含文字信 息的图片;
对所述包含文字信息的图片进行识别;
将识别结果进行后端处理后再进行显示。
15、 一种基于移动拍照文本识别及翻译手机的实现方法, 其特征在于, 包 括:
通过内嵌在手机终端中的微距摄像头对文档从上到下、 从左至右逐行逐字 进行扫描拍照, 得到多幅单帧图像序列;
对扫描拍照得到的多幅单帧图像序列进行预处理;
将经过预处理的多幅单帧图像序列通过帧间配准和拼接, 得到包含文字信 息的图片;
由内嵌在手机内部的文字识别模块对所述包含文字信息的图片进行识别, 经后端处理后得到文字信息;
启动查询或者翻译引擎, 对所述识别得到的文字信息进行查询翻译; 将所述查询翻译结果进行显示。
16、 一种基于移动扫描的图像处理装置, 其特征在于, 包括:
文本扫描模块, 通过扫描传感器对文档从上到下、 从左至右逐行逐字进行 扫描拍照, 得到多幅单帧图像序列;
图像处理模块, 包括: 单帧图像预处理单元和帧间配准拼接单元; 单帧图 像预处理单元用于对扫描拍照得到的多幅单帧图像序列进行预处理; 所述帧间 配准拼接单元将经过预处理的多幅单帧图像序列通过帧间配准和拼接, 得到包 含文字信息的图片。
17、 如权利要求 16所述的基于移动扫描的图像处理装置, 其特征在于, 所 述单帧图像预处理单元包括:
二值化处理子单元, 用于对所述单帧图像进行二值化处理; 或 /和
倾斜校正处理子单元, 用于对所述单帧图像进行倾斜校正处理; 或 /和 平滑去噪处理子单元, 用于对所述单帧图像进行平滑去噪处理; 或 /和 文本行分离处理子单元, 用于对所述单帧图像进行文本行分离处理; 或 /和 规格化处理子单元, 用于对所述单帧图像进行规格化处理。
18、 如权利要求 16或 17所述的基于移动扫描的图像处理装置, 其特征在 于, 所述帧间配准拼接单元包括:
配准子单元, 用于以行为单位, 将该行所在的经过预处理的多幅单帧图像 序列进行帧间配准, 切除多幅单帧图像中重叠的部分;
拼接子单元, 用于将多幅单帧图像不重叠的部分拼接成完整的包含文字信 息的图片。
19、 一种基于移动扫描的电子阅读笔, 其特征在于, 包括:
文本扫描模块, 用于通过内嵌在电子阅读笔中的扫描传感器对文档从上到 下、 从左至右逐行逐字进行扫描拍照, 得到多幅单帧图像序列;
图像处理模块, 包括: 单帧图像预处理单元和帧间配准拼接单元; 单帧图 像预处理单元用于对扫描拍照得到的多幅单帧图像序列进行预处理; 所述帧间 配准拼接单元将经过预处理的多幅单帧图像序列通过帧间配准和拼接, 得到包 含文字信息的图片;
文本识别模块, 用于对所述包含文字信息的图片进行识别;
后端处理模块, 用于对识别结果进行后端处理;
结果显示模块, 用于将经过后端处理模块处理后的识别结果进行显示。
20、 一种基于移动拍照文本识别及翻译手机, 其特征在于, 包括: 文本扫描模块, 通过内嵌在手机终端中的微距摄像头对文档从上到下、 从 左至右逐行逐字进行扫描拍照, 得到多幅单帧图像序列;
图像处理模块, 包括: 单帧图像预处理单元和帧间配准拼接单元; 单帧图 像预处理单元用于对扫描拍照得到的多幅单帧图像序列进行预处理; 所述帧间 配准拼接单元将经过预处理的多幅单帧图像序列通过帧间配准和拼接, 得到包 含文字信息的图片;
文本识别模块, 由内嵌在手机内部的文字识别模块对所述包含文字信息的 图片进行识别;
后端处理模块, 用于对识别结果进行后端处理; 查询翻译模块, 启动查询或者翻译引擎, 对所述识别得到的文字信息进行 查询翻译;
结果显示模块, 用于将将所述查询翻译结果进行显示。
PCT/CN2008/070538 2008-03-19 2008-03-19 基于移动扫描的图像处理方法及装置 WO2009114967A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/CN2008/070538 WO2009114967A1 (zh) 2008-03-19 2008-03-19 基于移动扫描的图像处理方法及装置
CN2008801121063A CN101896920A (zh) 2008-03-19 2008-03-19 基于移动扫描的图像处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2008/070538 WO2009114967A1 (zh) 2008-03-19 2008-03-19 基于移动扫描的图像处理方法及装置

Publications (1)

Publication Number Publication Date
WO2009114967A1 true WO2009114967A1 (zh) 2009-09-24

Family

ID=41090470

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2008/070538 WO2009114967A1 (zh) 2008-03-19 2008-03-19 基于移动扫描的图像处理方法及装置

Country Status (2)

Country Link
CN (1) CN101896920A (zh)
WO (1) WO2009114967A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073847A (zh) * 2010-12-24 2011-05-25 汉王科技股份有限公司 一种扫描装置和扫描方法
WO2012163112A1 (zh) * 2011-05-27 2012-12-06 汉王科技股份有限公司 跳帧扫描识别装置和方法
TWI621072B (zh) * 2010-09-08 2018-04-11 蘋果公司 自縱向至橫向的以相機為基礎定向修正
CN109559365A (zh) * 2018-11-30 2019-04-02 努比亚技术有限公司 文件扫描方法、装置、移动终端及存储介质
CN110389588A (zh) * 2019-07-17 2019-10-29 宁波财经学院 一种移动机器人
CN110619326A (zh) * 2019-07-02 2019-12-27 安徽七天教育科技有限公司 一种基于扫描的英语试卷作文检测识别系统及方法
CN112132148A (zh) * 2020-08-26 2020-12-25 长春理工大学光电信息学院 一种基于手机摄像头拍摄多幅照片自动拼接的文档扫描方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335948B (zh) * 2014-08-08 2018-06-29 富士通株式会社 文档图像的拼接装置、方法以及扫描仪
CN109598185B (zh) * 2018-09-04 2022-09-20 创新先进技术有限公司 图像识别翻译方法、装置、设备及可读存储介质
CN110942054B (zh) * 2019-12-30 2023-06-30 福建天晴数码有限公司 页面内容识别方法
CN111783539A (zh) * 2020-05-30 2020-10-16 上海晏河建设勘测设计有限公司 一种地形测量方法、测量装置、测量系统及计算机可读存储介质
CN113608511A (zh) * 2021-08-04 2021-11-05 大唐海南能源开发有限公司 一种基于物联网的智慧电厂管控系统及其方法
CN115457557B (zh) * 2022-09-21 2024-03-05 惠州市学之友电子有限公司 一种扫描式翻译笔控制方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5638466A (en) * 1995-08-30 1997-06-10 Horizon Marketing Corporation Aka Wordwand Method and apparatus for deskewing images of symbols having a non-linear baseline
CN1570958A (zh) * 2004-04-23 2005-01-26 清华大学 多字体多字号印刷体藏文字符识别方法
CN101017614A (zh) * 2006-02-10 2007-08-15 杭州草莓资讯有限公司 Usb移动学习笔
CN101241395A (zh) * 2007-08-22 2008-08-13 中国人民解放军国防科学技术大学 扫描输入法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5638466A (en) * 1995-08-30 1997-06-10 Horizon Marketing Corporation Aka Wordwand Method and apparatus for deskewing images of symbols having a non-linear baseline
CN1570958A (zh) * 2004-04-23 2005-01-26 清华大学 多字体多字号印刷体藏文字符识别方法
CN101017614A (zh) * 2006-02-10 2007-08-15 杭州草莓资讯有限公司 Usb移动学习笔
CN101241395A (zh) * 2007-08-22 2008-08-13 中国人民解放军国防科学技术大学 扫描输入法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHIRALI-SHAHREZA, S. ET AL.: "Preparing Persian/Arabic Scanned Images for OCR", INFORMATION AND COMMUNICATION TECHNOLOGIES, 2006. ICTTA'06. 2ND, vol. 1, 24 April 2006 (2006-04-24), pages 1332 - 1336 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI621072B (zh) * 2010-09-08 2018-04-11 蘋果公司 自縱向至橫向的以相機為基礎定向修正
CN102073847A (zh) * 2010-12-24 2011-05-25 汉王科技股份有限公司 一种扫描装置和扫描方法
WO2012163112A1 (zh) * 2011-05-27 2012-12-06 汉王科技股份有限公司 跳帧扫描识别装置和方法
CN109559365A (zh) * 2018-11-30 2019-04-02 努比亚技术有限公司 文件扫描方法、装置、移动终端及存储介质
CN110619326A (zh) * 2019-07-02 2019-12-27 安徽七天教育科技有限公司 一种基于扫描的英语试卷作文检测识别系统及方法
CN110619326B (zh) * 2019-07-02 2023-04-18 安徽七天网络科技有限公司 一种基于扫描的英语试卷作文检测识别系统及方法
CN110389588A (zh) * 2019-07-17 2019-10-29 宁波财经学院 一种移动机器人
CN112132148A (zh) * 2020-08-26 2020-12-25 长春理工大学光电信息学院 一种基于手机摄像头拍摄多幅照片自动拼接的文档扫描方法
CN112132148B (zh) * 2020-08-26 2024-01-30 深圳市米特半导体技术有限公司 一种基于手机摄像头拍摄多幅照片自动拼接的文档扫描方法

Also Published As

Publication number Publication date
CN101896920A (zh) 2010-11-24

Similar Documents

Publication Publication Date Title
WO2009114967A1 (zh) 基于移动扫描的图像处理方法及装置
US11967164B2 (en) Object detection and image cropping using a multi-detector approach
US8170368B2 (en) Correcting device and method for perspective transformed document images
EP2545502B1 (en) Image feature detection based on application of multiple feature detectors
JP5896245B2 (ja) テキスト画像のトリミング方法
WO2015007168A1 (en) Character recognition method and device
JP2000105829A (ja) 顔パーツ検出方法及びその装置
CN106778736A (zh) 一种鲁棒的车牌识别方法及其系统
Liu et al. Robust outdoor text detection using text intensity and shape features
JP2008011484A (ja) 文字図形列抽出装置,文字図形列抽出方法,その方法を実行するプログラム,そのプログラムを記録した記録媒体
Leal et al. Smartphone camera document detection via Geodesic Object Proposals
Keefer et al. A survey on document image processing methods useful for assistive technology for the blind
Bhaskar et al. Implementing optical character recognition on the android operating system for business cards
JP4587698B2 (ja) 文字成分抽出装置
CN112364835A (zh) 视频信息取帧方法、装置、设备及存储介质
JP2004145592A (ja) 移動ベクトル抽出装置及び方法及びプログラム及びその記録媒体
JP4213357B2 (ja) 画像処理装置、画像処理方法及び該方法を実行させるためのプログラム
US11983944B2 (en) Object detection and image cropping using a multi-detector approach
JP2003208568A (ja) 画像処理装置、画像処理方法、及び同方法に用いるプログラム
WO2024039362A1 (en) Methods and systems for text recognition with image preprocessing
JP2005309771A (ja) 文字列領域抽出装置
JP5691281B2 (ja) 文字認識装置、文字認識プログラム及び文字認識方法
Mohammad et al. Practical vision based degraded text recognition system
JPH04291479A (ja) 罫線認識方法及び表処理方法
JPH0652355A (ja) 文字切り出し方法、並びに、文字認識装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200880112106.3

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08715274

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS (EPO FORM 1205A DATED 07-03-2011)

122 Ep: pct application non-entry in european phase

Ref document number: 08715274

Country of ref document: EP

Kind code of ref document: A1