WO2009114967A1

WO2009114967A1 - 基于移动扫描的图像处理方法及装置

Info

Publication number: WO2009114967A1
Application number: PCT/CN2008/070538
Authority: WO
Inventors: 许宏志; 邱光益; 刘正军; 徐波; 沈月发
Original assignee: 东莞市步步高教育电子产品有限公司
Priority date: 2008-03-19
Filing date: 2008-03-19
Publication date: 2009-09-24
Also published as: CN101896920A

Description

基于移动扫描的图像处理方法及装置技术领域

本发明涉及移动扫描技术，尤其涉及一种基于移动扫描的图像处理方法及装置、基于移动扫描的电子阅读笔及其实现方法、基于移动拍照文本识别及翻译手机及其实现方法。背景技术

传统的光学字符阅读器（OCR, Optical Character Reader ) 系统一般通过静态扫描获得整幅文档的图像，并借助计算机强大的存储和处理能力对图像进行预处理和文本分离等操作，最后由识别程序完成对文字或字符的识别。而电子阅读笔内部集成的小体积扫描传感器，决定了其扫描方式只能是移动扫描。所谓移动扫描，是指因为不能同时获得整幅文档的有效图像，只能由使用者通过手持的方式逐行逐字进行扫描，得到的不是整幅图像，而是局部图像的帧序列。

发明人在本发明的创造过程中，发现现有的基于移动扫描的图像处理以及文字识别技术，存在如下缺点：

手的抖动等影响，移动扫描得到的图像会产生倾斜、尺度变化等变形，单帧图像中能存在多行文字，等等。

另外，由于扫描过程中手的移动速度小于传感器的扫描速度（如果移动过快，传感器得不到清晰的图像），扫描的图像帧之间必定会出现内容的重叠，如果不进行有效的处理，势必会造成输出结果的混乱。在整个文字识别系统中，识别环节最复杂，耗时也最多。在设计系统时为达到较好的实时性，应尽量避免这个环节上的重复运行。设想一般情况下，文档中每行约含 40个文字（以中文为例），移动扫描大约需要 2秒钟；扫描传感器的扫描帧率为 20fps, 每帧包含 5 个文字。若釆用第一种方案，先对每帧图像中的文字进行识别，则总共需要识别 2 X 20 X 5=200个文字，而实际的文字只有 40个，可见大部分时间都耗费在重复的识别工作上，显然会难于满足实时性的要求。发明内容

本发明实施例提供一种基于移动扫描的图像处理方法及装置、基于移动扫描的电子阅读笔及其实现方法、基于移动拍照文本识别及翻译手机及其实现方法，以提高图像处理的质量和文字识别的效率。

为了解决上述技术问题，本发明实施例提供了一种基于移动扫描的图像处理方法，包括：

通过扫描传感器对文档从上到下、从左至右逐行逐字进行扫描拍照，得到多幅单帧图像序列；

对扫描拍照得到的多幅单帧图像序列进行预处理；

将经过预处理的多幅单帧图像序列通过帧间配准和拼接，得到包含文字信息的图片。

相应地，本发明实施例还提供了一种基于移动扫描的图像处理装置，包括：文本扫描模块，通过扫描传感器对文档从上到下、从左至右逐行逐字进行扫描拍照，得到多幅单帧图像序列；

图像处理模块，包括：单帧图像预处理单元和帧间配准拼接单元；单帧图像预处理单元用于对扫描拍照得到的多幅单帧图像序列进行预处理；所述帧间配准拼接单元将经过预处理的多幅单帧图像序列通过帧间配准和拼接，得到包含文字信息的图片。

本发明实施例还提供了一种基于移动扫描的电子阅读笔的实现方法，包括：通过内嵌在电子阅读笔中的扫描传感器对文档从上到下、从左至右逐行逐字进行扫描拍照，得到多幅单帧图像序列；

对扫描拍照得到的多幅单帧图像序列进行预处理；

将经过预处理的多幅单帧图像序列通过帧间配准和拼接，得到包含文字信息的图片；

对所述包含文字信息的图片进行识别；

将识别结果进行后端处理后再进行显示。

相应地，本发明实施例还提供了一种基于移动扫描的电子阅读笔，包括：文本扫描模块，用于通过内嵌在电子阅读笔中的扫描传感器对文档从上到下、从左至右逐行逐字进行扫描拍照，得到多幅单帧图像序列；

图像处理模块，包括：单帧图像预处理单元和帧间配准拼接单元；单帧图像预处理单元用于对扫描拍照得到的多幅单帧图像序列进行预处理；所述帧间配准拼接单元将经过预处理的多幅单帧图像序列通过帧间配准和拼接，得到包含文字信息的图片；

文本识别模块，用于对所述包含文字信息的图片进行识别；

后端处理模块，用于对识别结果进行后端处理；

结果显示模块，用于将经过后端处理模块处理后的识别结果进行显示。本发明实施例还提供了一种基于移动拍照文本识别及翻译手机的实现方法，包括：

通过内嵌在手机终端中的微距摄像头对文档从上到下、从左至右逐行逐字进行扫描拍照，得到多幅单帧图像序列；

对扫描拍照得到的多幅单帧图像序列进行预处理；

由内嵌在手机内部的文字识别模块对所述包含文字信息的图片进行识别，经后端处理后得到文字信息；

启动查询或者翻译引擎，对所述识别得到的文字信息进行查询翻译；将所述查询翻译结果进行显示。

相应地，本发明实施例还提供了一种基于移动拍照文本识别及翻译手机，包括：

文本扫描模块，通过内嵌在手机终端中的微距摄像头对文档从上到下、从左至右逐行逐字进行扫描拍照，得到多幅单帧图像序列；

文本识别模块，由内嵌在手机内部的文字识别模块对所述包含文字信息的图片进行识别；

后端处理模块，用于对识别结果进行后端处理；

查询翻译模块，启动查询或者翻译引擎，对所述识别得到的文字信息进行查询翻译；

结果显示模块，用于将将所述查询翻译结果进行显示。附图说明

图 1为本发明实施例提供的基于移动扫描的图像处理方法的流程示意图；图 2 为本发明实施例提供的基于移动扫描的电子阅读笔实现方法的流程示意图；

图 3 为本发明实施例提供的基于移动拍照文本识别及翻译手机实现方法的流程示意图；

图 4为本发明实施例提供的基于移动扫描的图像处理装置的组成示意图；图 5为本发明实施例提供的基于移动扫描的电子阅读笔的组成示意图；图 6 为本发明实施例提供的基于移动拍照文本识别及翻译手机的组成示意图；

图 7为本发明实施例提供的如图 4、图 5、图 6中所示的图像处理模块的组成示意图；

图 8为本发明实施例提供的如图 7 中所示的单帧图像预处理单元的组成示意图；

图 9为本发明实施例提供的如图 7 中所示的帧间配准拼接单元的组成示意图。具体实施方式

本发明实施例提供了一种基于移动扫描的图像处理方法及装置、基于移动扫描的电子阅读笔及其实现方法、基于移动拍照文本识别及翻译手机及其实现方法，提高了图像处理的质量和文字识别的效率。

参考图 1 ,是本发明实施例提供的基于移动扫描的图像处理方法的流程示意图。

如图所示，在步骤 100, 通过扫描传感器对文档从上到下、从左至右逐行逐字进行扫描拍照，得到多幅单帧图像序列；

由于手的抖动等影响，移动扫描得到的图像会产生倾斜、尺度变化等变形，单帧图像中能存在多行文字，等等。所以，在实现基于移动扫描的 OCR技术时，必须有针对性地考虑文本图像的预处理环节，因此在步骤 101 ,对扫描拍照得到的多幅单帧图像序列进行预处理；

具体地，步骤 101包括：首先在步骤 1010, 对所述单帧图像进行二值化处理，图像的二值化处理就是把扫描图像分成对象和背景两个区域，求其阔值，去掉不必要的噪声和干扰。因此可以说，二值化的过程，就是阈值选取的过程。

在步骤 1011 , 对所述单帧图像进行倾斜校正处理；在文字图像扫描输入的过程中，图像或多或少会出现某种程度的倾斜，这种倾斜不仅会给下一步文本行分离造成困难，也会影响最终的文字识别的正确率。所以，倾斜校正也是文字识别过程中必须要考虑的一个重要环节。通常情况下，应快速准确测量出扫描图像的倾斜角度，从而对图像进行旋转校正。

检测文本倾斜角的基本思路是，文本中任何水平方向和垂直方向的线条或者文字行的倾斜方向都与文本的倾斜方向保持一致，因此可以通过这些线条和文字行来估计文本的倾斜角度。

在步骤 1012, 对所述单帧图像进行平滑去噪处理；经过倾斜校正后的文字图像会附加一定的噪声，这种噪声主要表现为斑点和空洞。其中斑点指的是图像背景中的污点、毛刺之类的与文本图中的文本不相干的内容，一般相对笔划而言较小，成点状。而所谓空洞指的是文字笔划中的小的像素缺失，一般被 0 像素（即黑像素）包围。

关于噪声的处理方法有很多，主要有邻域相关法、均值滤波法以及形态学的方法等。

在步骤 1013 , 对所述单帧图像进行文本行分离处理；前面的步骤已经对文本图像进行了二值化、纠偏和平滑处理，得到了质量较好的二值图像。因此，在行切分阶段只需考虑比较理想的情况：文本经过了倾斜校正，行方向基本与水平方向一致；行与行之间没有交迭；行与行之间的距离基本一样。

对二值图像的文本行分离过程为：对于糾偏后的二值图像，统计水平方向每行中的前景点数量，生成投影曲线。由于文本行与行之间存在明显的间距，得到的投影曲线必定是连续非零像素段、连续零像素段相互交迭，其中非零像素段表示文本行，零像素段表示行间距。找出靠近图像正中间的行并进行切分，就切分出了感兴趣的行。

在步骤 1014, 对所述单帧图像进行规格化处理；在移动扫描的过程中，由于手的抖动，扫描得到的图像容易产生变形，导致连续两帧图像中文字的字体大小产生变化，从而使切分出来的文字行图像规格不一样（指图像产生了缩放）。为了便于下一步进行文字行图像的配准和拼接，可把图像规格化成相同大小。可用插值法对图像进行插值放大或缩小，以保证所有切分出的文本行图像高度一致。

以上对扫描拍照得到的多幅单帧图像序列进行预处理的步骤完成后，继续以下流程：

在步骤 102 , 将经过预处理的多幅单帧图像序列通过帧间配准和拼接，得到包含文字信息的图片。

需要说明的是，把一幅图像看作是像素点的集合，图像配准德过程就是寻求一个点集到另一个点集之间的映射的过程，即找出两幅图像中具有相同性质的点，并计算其对应的变换关系。这种变换可以是简单的刚体变换（即图像之间只存在旋转和平移），也可以是较复杂的弹性变换（图像拉伸、缩放、扭曲变形等）。

本发明实施例提供的基于移动扫描的图像处理方法，通过扫描传感器对文档从上到下、从左至右逐行逐字进行扫描拍照，得到多幅单帧图像序列，然后对单帧图像进行有针对性地考虑文本图像的预处理环节，最后通过图像配准和拼接得到完整的包含文字信息的图片，大大提高了图像处理的质量。

参考图 2,是本发明实施例提供的基于移动扫描的电子阅读笔实现方法的流程示意图；

如图所示，在步骤 200 , 通过内嵌在电子阅读笔中的扫描传感器对文档从上到下、从左至右逐行逐字进行扫描拍照，得到多幅单帧图像序列；

由于手的抖动等影响，移动扫描得到的图像会产生倾斜、尺度变化等变形，单帧图像中能存在多行文字，等等。所以，在实现基于移动扫描的 OCR技术时，必须有针对性地考虑文本图像的预处理环节，因此在步骤 201 ,对扫描拍照得到的多幅单帧图像序列进行预处理；

具体地，步骤 201包括：

首先在步骤 2010, 对所述单帧图像进行二值化处理，图像的二值化处理就是把扫描图像分成对象和背景两个区域，求其阔值，去掉不必要的噪声和干扰。因此可以说，二值化的过程，就是阈值选取的过程。

在步骤 2011 , 对所述单帧图像进行倾斜校正处理；在文字图像扫描输入的过程中，图像或多或少会出现某种程度的倾斜，这种倾斜不仅会给下一步文本行分离造成困难，也会影响最终的文字识别的正确率。所以，倾斜校正也是文字识别过程中必须要考虑的一个重要环节。通常情况下，应快速准确测量出扫描图像的倾斜角度，从而对图像进行旋转校正。

在步骤 2012, 对所述单帧图像进行平滑去噪处理；经过倾斜校正后的文字图像会附加一定的噪声，这种噪声主要表现为斑点和空洞。其中斑点指的是图像背景中的污点、毛刺之类的与文本图中的文本不相干的内容，一般相对笔划而言较小，成点状。而所谓空洞指的是文字笔划中的小的像素缺失，一般被 0 像素（即黑像素）包围。

在步骤 2013 , 对所述单帧图像进行文本行分离处理；前面的步骤已经对文本图像进行了二值化、纠偏和平滑处理，得到了质量较好的二值图像。因此，在行切分阶段只需考虑比较理想的情况：文本经过了倾斜校正，行方向基本与水平方向一致；行与行之间没有交迭；行与行之间的距离基本一样。

在步骤 2014, 对所述单帧图像进行规格化处理；在移动扫描的过程中，由于手的抖动，扫描得到的图像容易产生变形，导致连续两帧图像中文字的字体大小产生变化，从而使切分出来的文字行图像规格不一样（指图像产生了缩放）。为了便于下一步进行文字行图像的配准和拼接，可把图像规格化成相同大小。可用插值法对图像进行插值放大或缩小，以保证所有切分出的文本行图像高度一致。

以上对扫描拍照得到的多幅单帧图像序列进行预处理的步骤完成后，继续以下流程：在步骤 202, 将经过预处理的多幅单帧图像序列通过帧间配准和拼接，得到包含文字信息的图片；

在步骤 203 , 电子阅读笔的文本识别模块启动 OCR程序或者驱动方法，对所述包含文字信息的图片进行识别；

在步骤 204, 对所述文本识别结果进行后端处理，具体地，后端处理包括内码转换和预言种类判断。

内码转换即将所述图片转换成 UNICODE编码或 GBK编码；语言种类判断，即判断当前文字属于单语种还是多语种混排。

在步骤 205, 显示所述文本识别的结果，显示的方式有通过声音显示，或者通过视觉信号显示等等。

本发明实施例提供的基于移动扫描的电子阅读笔实现方法，通过内嵌在电子阅读笔中的扫描传感器对文档从上到下、从左至右逐行逐字进行扫描拍照，得到多幅单帧图像序列，然后对单帧图像进行有针对性地考虑文本图像的预处理环节，最后通过图像配准和拼接得到完整的包含文字信息的图片，大大提高了图像处理的质量，从而提高了文本识别的效率。

参考图 3 ,是本发明实施例提供的基于移动拍照文本识别及翻译手机实现方法的流程示意图；

如图所示，在步骤 300, 通过内嵌在手机终端中的微距摄像头对文档从上到下、从左至右逐行逐字进行扫描拍照，得到多幅单帧图像序列；

由于手的抖动等影响，移动扫描得到的图像会产生倾斜、尺度变化等变形，单帧图像中能存在多行文字，等等。所以，在实现基于移动扫描的 OCR技术时，必须有针对性地考虑文本图像的预处理环节，因此在步骤 301 ,对扫描拍照得到的多幅单帧图像序列进行预处理；

具体地，步骤 301包括：

首先在步骤 3010, 对所述单帧图像进行二值化处理，图像的二值化处理就是把扫描图像分成对象和背景两个区域，求其阔值，去掉不必要的噪声和干扰。因此可以说，二值化的过程，就是阈值选取的过程。

在步骤 3011 , 对所述单帧图像进行倾斜校正处理；在文字图像扫描输入的过程中，图像或多或少会出现某种程度的倾斜，这种倾斜不仅会给下一步文本行分离造成困难，也会影响最终的文字识别的正确率。所以，倾斜校正也是文字识别过程中必须要考虑的一个重要环节。通常情况下，应快速准确测量出扫描图像的倾斜角度，从而对图像进行旋转校正。

在步骤 3012, 对所述单帧图像进行平滑去噪处理；经过倾斜校正后的文字图像会附加一定的噪声，这种噪声主要表现为斑点和空洞。其中斑点指的是图像背景中的污点、毛刺之类的与文本图中的文本不相干的内容，一般相对笔划而言较小，成点状。而所谓空洞指的是文字笔划中的小的像素缺失，一般被 0 像素（即黑像素）包围。

在步骤 3013 , 对所述单帧图像进行文本行分离处理；前面的步骤已经对文本图像进行了二值化、纠偏和平滑处理，得到了质量较好的二值图像。因此，在行切分阶段只需考虑比较理想的情况：文本经过了倾斜校正，行方向基本与水平方向一致；行与行之间没有交迭；行与行之间的距离基本一样。

在步骤 3014, 对所述单帧图像进行规格化处理；在移动扫描的过程中，由于手的抖动，扫描得到的图像容易产生变形，导致连续两帧图像中文字的字体大小产生变化，从而使切分出来的文字行图像规格不一样（指图像产生了缩放）。为了便于下一步进行文字行图像的配准和拼接，可把图像规格化成相同大小。可用插值法对图像进行插值放大或缩小，以保证所有切分出的文本行图像高度一致。

在步骤 302, 将经过预处理的多幅单帧图像序列通过帧间配准和拼接，得到包含文字信息的图片；

在步骤 303 , 由内嵌在手机内部的文本识别模块启动 OCR程序或者驱动方法，对所述包含文字信息的图片进行识别；

在步骤 304, 对所述文本识别结果进行后端处理；具体地，后端处理包括内码转换和预言种类判断。

在步骤 305, 启动查询或翻译引擎，开始查询或者翻译；由于在手机内部载入了翻译模块，可以调用与文本识别结果相应的单词或者语句；

在步骤 306, 显示所述查询或者翻译的结果。显示的方式有通过声音显示，或者通过视觉信号显示等等。

本发明实施例提供的基于移动拍照文本识别及翻译手机实现方法，通过内嵌在手机终端中的微距摄像头对文档从上到下、从左至右逐行逐字进行扫描拍照，得到多幅单帧图像序列，然后对单帧图像进行有针对性地考虑文本图像的预处理环节，最后通过图像配准和拼接得到完整的包含文字信息的图片，大大提高了图像处理的质量，从而提高了文本识别，以及查询翻译的效率。

参见图 4,是本发明实施例提供的基于移动扫描的图像处理装置的组成示意图；

本发明实施例提供的基于移动扫描的图像处理装置，包括：

文本扫描模块 1 , 通过扫描传感器对文档从上到下、从左至右逐行逐字进行扫描拍照，得到多幅单帧图像序列；

图像处理模块 2, 包括：单帧图像预处理单元和帧间配准拼接单元；单帧图像预处理单元用于对扫描拍照得到的多幅单帧图像序列进行预处理；所述帧间配准拼接单元将经过预处理的多幅单帧图像序列通过帧间配准和拼接，得到包含文字信息的图片。

图 7为本发明实施例提供的如图 4中所示的图像处理模块 2的组成示意图；由于手的抖动等影响，移动扫描得到的图像会产生倾斜、尺度变化等变形，单帧图像中能存在多行文字，等等。所以，在实现基于移动扫描的 OCR技术时，必须有针对性地考虑文本图像的预处理环节，在此通过所述单帧图像处理单元 20对扫描拍照得到的多幅单帧图像序列进行预处理；根据实际情况，单帧图像处理单元 20预处理环节可以细分为二值化、倾斜校正、平滑去噪、文本行分离、规格化处理等五个步骤；

另外，由于扫描过程中手的移动速度小于传感器的扫描速度（如果移动过快，传感器得不到清晰的图像），扫描的图像帧之间必定会出现内容的重叠，如果不进行有效的处理，势必会造成输出结果的混乱，因此，本发明实施例通过帧间配准拼接单元 21将经过预处理的多幅单帧图像序列通过帧间配准和拼接，得到包含文字信息的图片。

参见图 8, 是为本发明实施例提供的如图 7 中所示的单帧图像预处理单元 20的组成示意图。

所述单帧图像预处理单元 20包括：

二值化处理子单元 200, 用于对所述单帧图像进行二值化处理；

需要说明的是，图像的二值化处理就是把扫描图像分成对象和背景两个区域，求其阔值，去掉不必要的噪声和干扰。因此可以说，二值化的过程，就是阔值选取的过程。

阔值是把背景和前景区分开的标尺，其选取的原则是，要在尽可能保存文字信息的同时又尽可能地削除噪声的干扰。根据阔值选取和作用的范围可以将二值化算法分为全局阔值法和局部阔值法两类。全局阔值法由文字图像的直方图或灰度的空间分布确定整幅图像的阈值，并根据此阈值实现灰度图像到二值化图像的转化。常用的全局阔值法包括直方图法和最大类间方差法，直方图法是指直接从原图像的灰度分布直方图上确定阔值，包括 p-tile法、最频值法和直方图凹面分析法等；最大类间方差法主要指 Otus法。局部局值法主要是通过定义考察点的邻域，由邻域计算模板来实现考察点灰度与邻域点的比较。常用的局部阈值法有 Bernsen法、 Yanowitz和 Bmckstein法、 Sauvola和 Pietikainen法等。对于目标和背景比较清楚的图像，全局阔值法可以取得较好结果，但是如果图像的光照不均匀，或是目标灰度变化率很大，就应该考虑局部阔值法。实际的 OCR系统中对文字图像的二值化常釆用 Otsu法、 Bernsen法等方法。

倾斜校正处理子单元 201 , 用于对所述单帧图像进行倾斜校正处理；检测文本倾斜角的基本思路是，文本中任何水平方向和垂直方向的线条或者文字行的倾斜方向都与文本的倾斜方向保持一致，因此可以通过这些线条和文字行来估计文本的倾斜角度，倾斜校正处理子单元 201 主要通过以下三种方法进行校正：

1、基于矩形块的文档图像倾斜校正方法：矩形子块结构是构成文档版面的最小基元，这些矩形子块的上、下边为水平线条，左、右边为垂直线条。当文档图像产生倾斜时，矩形子块的边线也会产生相应的倾斜角度。通过检测矩形子块边线，然后计算出边线的方程，就可以得到文档图像的倾斜角度。这种方法主要是针对大版面的文档图像，因此不适合在电子扫描笔系统中应用。

2、基于水平线和垂直线的文档倾斜校正方法：水平线条和垂直线条在文档中比较普遍（如版面基元间的分割线等），特别是在表格文档中（如票据、报表等），水平线条和垂直线运用更为广泛。通过检测这些线条，计算出它的直线方程，然后算出文档的倾斜角度。我们扫描的对象主要是文字，所以这种方法也不适合。

3、基于文本行的文档倾斜校正方法：通常文本行是沿水平方向排列的，且相邻文本行之间的距离相对固定，因此检测页面图像的倾角不必对整个图像进行扫描计算，只需选择合适的文本子区域，其文本行的方向角对应于整个文档图像的倾斜角。

目前常用的基于文本行的图像倾斜角检测算法主要有 Hough变换法、投影方法、近 4|5法 ( nearst-neighbor ) 、 BAG(Block Adjacency Graph)算法, 基于子空间直线检测的算法，基于 Fourier谱分析的算法，基于梯度分析的算法和神经网络法等等。其中 Hough变换法和投影法常用来检测文本图像的倾斜角。

平滑去噪处理子单元 202, 用于对所述单帧图像进行平滑去噪处理；经过倾斜校正后的文字图像会附加一定的噪声，这种噪声主要表现为斑点和空洞。其中斑点指的是图像背景中的污点、毛刺之类的与文本图中的文本不相干的内容，一般相对笔划而言较小，成点状。而所谓空洞指的是文字笔划中的小的像素缺失，一般被 0像素（即黑像素）包围。

平滑去噪处理子单元 202对图像进行平滑去噪处理的方法有很多，主要有邻域相关法、均值滤波法以及形态学的方法等。

文本行分离处理子单元 203 , 用于对所述单帧图像进行文本行分离处理；具体地，对于纠偏后的二值图像，统计水平方向每行中的前景点数量，生成投影曲线。由于文本行与行之间存在明显的间距，得到的投影曲线必定是连续非零像素段、连续零像素段相互交迭，其中非零像素段表示文本行，零像素段表示行间距。找出靠近图像正中间的行并进行分离，就切分出了感兴趣的行。

规格化处理子单元 204, 用于对所述单帧图像进行规格化处理。

在移动扫描的过程中，由于手的抖动，扫描得到的图像容易产生变形，导致连续两帧图像中文字的字体大小产生变化，从而使切分出来的文字行图像规格不一样（指图像产生了缩放）。为了便于下一步进行文字行图像的配准和拼接，可把图像规格化成相同大小。规格化处理子单元 204用插值法对图像进行插值放大或缩小，以保证所有切分出的文本行图像高度一致。

参见图 9为本发明实施例提供的如图 7 中所示的帧间配准拼接单元的组成示意图。

所述帧间配准拼接单元 21包括：

配准子单元 210, 用于以行为单位，将该行所在的经过预处理的多幅单帧图像序列进行帧间配准，切除多幅单帧图像中重叠的部分；

拼接子单元 211 ,用于将多幅单帧图像不重叠的部分拼接成完整的包含文字信息的图片。

需要说明的是，配准子单元 210进行图像配准方法大致分为以下三类。

1、基于特征的图像配准。首先提取图像信息的特征，然后以这些特征为模型进行配准。由于图像的特征点比图像的像素点要少很多，因此大大减少了配准过程的计算量，而特征点的提取过程可以减少噪声的影响，对灰度变化、图像形变以及遮挡等都有较好的适应能力。

2、基于统计的配准方法。基于统计的配准方法通常是指最大互信息的图像配准方法，该方法的突出优点是鲁棒性好、配准精度高、人工干预少。基于互信息的图像配准是用两幅图像的联合概率分布与完全独立时的概率分布的广义距离来估计互信息，并作为多模态图像配准的测度。当两幅图像达到最佳配准时，它们的对应象素的互信息应为最大。

3、基于图像灰度的配准方法。通常直接利用整幅图像的灰度信息，建立两幅图像之间的相似性度量，然后釆用某种搜索方法，寻找使相似性度量值最大或最小的变换模型的参数值。常用的相似性度量有：互相关、位相相关、两幅图像灰度的平方差之和等。为了减少搜索空间和配准时间，人们相继提出了多子区域相关配准算法、序贯相似性检测算法、两级模板配准算法、分层序贯配准算法等各种快速配准算法。

本发明实施例提供的基于移动扫描的图像处理装置，通过扫描传感器对文档从上到下、从左至右逐行逐字进行扫描拍照，得到多幅单帧图像序列，然后对单帧图像进行有针对性地考虑文本图像的预处理环节，最后通过图像配准和拼接得到完整的包含文字信息的图片，大大提高了图像处理的质量。

参见图 5 , 是本发明实施例提供的基于移动扫描的电子阅读笔的组成示意图；

所述电子阅读笔包括：

文本扫描模块 1 ,用于通过内嵌在电子阅读笔中的扫描传感器对文档从上到下、从左至右逐行逐字进行扫描拍照，得到多幅单帧图像序列；

图像处理模块 2, 包括：单帧图像预处理单元 20和帧间配准拼接单元 21 ; 单帧图像预处理单元 20用于对扫描拍照得到的多幅单帧图像序列进行预处理；所述帧间配准拼接单元 21将经过预处理的多幅单帧图像序列通过帧间配准和拼接，得到包含文字信息的图片；需要说明的是，该图像处理模块 2 的功能和作用与图 4所示的基于移动扫描的图像处理装置中图像处理模块 2的功能和作用一致，其包括的单帧图像预处理单元 20和帧间配准拼接单元 21 的功能和作用也参见上述描述，在此不再赘述。

文本识别模块 3 , 用于对所述包含文字信息的图片进行识别；

后端处理模块 4, 用于对识别结果进行后端处理；具体地，后端处理包括内码转换和预言种类判断。

结果显示模块 5, 用于将经过后端处理模块处理后的识别结果进行显示。本发明实施例提供的基于移动扫描的电子阅读笔，通过内嵌在电子阅读笔中的扫描传感器对文档从上到下、从左至右逐行逐字进行扫描拍照，得到多幅单帧图像序列，然后对单帧图像进行有针对性地考虑文本图像的预处理环节，最后通过图像配准和拼接得到完整的包含文字信息的图片，大大提高了图像处理的质量，从而提高了文本识别的效率。

参见图 6 为本发明实施例提供的基于移动拍照文本识别及翻译手机的组成示意图；

文本扫描模块 1 , 用于通过内嵌在手机终端中的微距摄像头对文档从上到下、从左至右逐行逐字进行扫描拍照，得到多幅单帧图像序列；

文本识别模块 3 ,由内嵌在手机内部的文字识别模块 3对所述包含文字信息的图片进行识别；

查询翻译模块 5, 启动查询或者翻译引擎，对所述识别得到的文字信息进行查询翻译；

结果显示模块 6, 用于将将所述查询翻译结果进行显示。

本发明实施例提供的基于移动拍照文本识别及翻译手机，通过内嵌在手机终端中的微距摄像头对文档从上到下、从左至右逐行逐字进行扫描拍照，得到多幅单帧图像序列，然后对单帧图像进行有针对性地考虑文本图像的预处理环节，最后通过图像配准和拼接得到完整的包含文字信息的图片，大大提高了图像处理的质量，从而提高了文本识别，以及查询翻译的效率。

以上所揭露的仅为本发明实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

权利要求

1、一种基于移动扫描的图像处理方法，其特征在于，包括：

对扫描拍照得到的多幅单帧图像序列进行预处理；

2、根据权利要求 1所述的基于移动扫描的图像处理方法，其特征在于，所述对扫描拍照得到的多幅单帧图像序列进行预处理的步骤包括：

对所述单帧图像进行二值化处理；或 /和

对所述单帧图像进行倾斜校正处理；或 /和

对所述单帧图像进行平滑去噪处理；或 /和

对所述单帧图像进行文本行分离处理；或 /和

对所述单帧图像进行规格化处理。

3、如权利要求 2所述的基于移动扫描的图像处理方法，其特征在于，所述对单帧图像进行二值化处理的步骤包括：

扫描拍照得到的单帧图像分成对象和背景两个区域；

求所述对象和背景区域的域值；

去掉所述单帧图像的噪声和干扰。

4、如权利要求 2所述的基于移动扫描的图像处理方法，其特征在于，对所述单帧图像进行倾斜校正处理的方式包括：基于矩形块的图像倾斜校正、基于水平线和垂直线的图像倾斜校正、基于文本行的图像倾斜校正。

5、如权利要求 4所述的基于移动扫描的图像处理方法，其特征在于，所述基于矩形块的图像倾斜校正的步骤包括：

检测单帧图像的矩形子块边线；计算所述矩形子块边线的方程，得到单帧图像的倾斜角度；

根据所述倾斜角度，对所述单帧图片旋转相应的角度，得到校正后的单帧图像。

6、如权利要求 4所述的基于移动扫描的图像处理方法，其特征在于，所述基于水平线和垂直线的图像倾斜校正的步骤包括：

检测单帧图像的水平线和垂直线；

计算关于所述水平线和垂直线的直线方程，得到单帧图像的倾斜角度；根据所述倾斜角度，对所述单帧图片旋转相应的角度，得到校正后的单帧图像。

7、如权利要求 4所述的基于移动扫描的图像处理方法，其特征在于，所述基于文本行的图像倾斜校正的步骤包括：

检测单帧图像的文本行的方向角；

计算所述文本行的方向角与整幅单帧图像之间的夹角，得到单帧图像的倾斜角度；

8、如权利要求 3所述的基于移动扫描的图像处理方法，其特征在于，对所述单帧图像进行文本行分离处理的步骤包括：

对于单帧图像，统计水平方向每行中的前景点数量，生成投影曲线；根据所述投影曲线，找到图像的正中间的行进行分离处理，得到经过文本行分离处理后的图片。

9、如权利要求 3所述的基于移动扫描的图像处理方法，其特征在于，对所述单帧图像进行规格化处理的步骤包括：

用插值法对所述单帧图像进行放大或缩小，得到高度和大小一致的单帧图像。

10、根据权利要求 1至 9所述的基于移动扫描的图像处理方法，其特征在于，所述将经过预处理的多幅单帧图像序列通过帧间配准和拼接，得到包含文字信息的图片的步骤包括：

以行为单位，将该行所在的经过预处理的多幅单帧图像序列进行帧间配准 , 切除多幅单帧图像中重叠的部分；

将多幅单帧图像不重叠的部分拼接成完整的包含文字信息的图片。

11、根据权利要求 10所述的基于移动扫描的图像处理方法，其特征在于，所述帧间配准包括：

提取所述单帧图像信息的特征；

以所述特征为模型进行配准。

12、根据权利要求 10所述的基于移动扫描的图像处理方法，其特征在于，所述帧间配准包括：

以两幅单帧图像的联合概率分布与完全独立时的概率分布之间的广义距离，估算两幅单帧图像之间的互信息；

将所述两幅单帧图像之间的互信息作为多模态图像配准的测度进行配准。

13、根据权利要求 10所述的基于移动扫描的图像处理方法，其特征在于，所述帧间配准包括：

利用单帧图像的灰度信息，建立两幅图像之间的相似性度量；

搜索相似性度量值最大或最小的变换模型的参数值；

以所述参数值进行配准。

14、一种基于移动扫描的电子阅读笔的实现方法，其特征在于，包括：通过内嵌在电子阅读笔中的扫描传感器对文档从上到下、从左至右逐行逐字进行扫描拍照，得到多幅单帧图像序列；

对扫描拍照得到的多幅单帧图像序列进行预处理；

对所述包含文字信息的图片进行识别；

将识别结果进行后端处理后再进行显示。

15、一种基于移动拍照文本识别及翻译手机的实现方法，其特征在于，包括：

对扫描拍照得到的多幅单帧图像序列进行预处理；

16、一种基于移动扫描的图像处理装置，其特征在于，包括：

文本扫描模块，通过扫描传感器对文档从上到下、从左至右逐行逐字进行扫描拍照，得到多幅单帧图像序列；

17、如权利要求 16所述的基于移动扫描的图像处理装置，其特征在于，所述单帧图像预处理单元包括：

二值化处理子单元，用于对所述单帧图像进行二值化处理；或 /和

倾斜校正处理子单元，用于对所述单帧图像进行倾斜校正处理；或 /和平滑去噪处理子单元，用于对所述单帧图像进行平滑去噪处理；或 /和文本行分离处理子单元，用于对所述单帧图像进行文本行分离处理；或 /和规格化处理子单元，用于对所述单帧图像进行规格化处理。

18、如权利要求 16或 17所述的基于移动扫描的图像处理装置，其特征在于，所述帧间配准拼接单元包括：

配准子单元，用于以行为单位，将该行所在的经过预处理的多幅单帧图像序列进行帧间配准，切除多幅单帧图像中重叠的部分；

拼接子单元，用于将多幅单帧图像不重叠的部分拼接成完整的包含文字信息的图片。

19、一种基于移动扫描的电子阅读笔，其特征在于，包括：

文本扫描模块，用于通过内嵌在电子阅读笔中的扫描传感器对文档从上到下、从左至右逐行逐字进行扫描拍照，得到多幅单帧图像序列；

文本识别模块，用于对所述包含文字信息的图片进行识别；

后端处理模块，用于对识别结果进行后端处理；

结果显示模块，用于将经过后端处理模块处理后的识别结果进行显示。

20、一种基于移动拍照文本识别及翻译手机，其特征在于，包括：文本扫描模块，通过内嵌在手机终端中的微距摄像头对文档从上到下、从左至右逐行逐字进行扫描拍照，得到多幅单帧图像序列；

后端处理模块，用于对识别结果进行后端处理；查询翻译模块，启动查询或者翻译引擎，对所述识别得到的文字信息进行查询翻译；

结果显示模块，用于将将所述查询翻译结果进行显示。