WO2014180387A1

WO2014180387A1 - 一种信息输入方法及装置

Info

Publication number: WO2014180387A1
Application number: PCT/CN2014/078179
Authority: WO
Inventors: 陈飞雄; 郭庆吉
Original assignee: 中兴通讯股份有限公司
Priority date: 2013-12-05
Filing date: 2014-05-22
Publication date: 2014-11-13
Also published as: CN104699663A

Abstract

本发明公开了一种信息输入方法及装置，其中，该方法包括：通过图像获取模块获取图像；对获取的图像中的字符进行切割处理；对各个切割字符进行文字识别，以识别出各个切割字符对应的文字；将识别的各个文字按对应的切割字符在所述图像的字符版面中的位置，进行文字排版；将排版后的文字按文字排版格式输出到文本输入框。采用本发明提供的方案，可方便的实现信息输入，省时省力，提高信息输入效率。

Description

一种信息输入方法及装置技术领域本发明涉及到智能输入技术领域，特别涉及到一种信息输入方法及装置。背景技术移动终端（如手机）具有大容量存储空间及强大的处理能力，人们可通过该移动终端打电话、发送短信、收发邮件、上网浏览等，当人们需要输入文字信息时，一般都是通过拼音输入法、五笔输入法、手写输入法等类型。当我们需要将大量纸质文档中的文字录入到移动终端时，如果通过上述几种输入法进行录入，费时又费力。发明内容本发明提供了一种信息输入方法及装置，其能够解决现有技术中在移动终端录入信息的费时费力的缺陷，实现信息的快速输入。本发明提供一种信息输入方法，该方法包括：通过图像获取模块获取图像；对获取的图像中的字符进行切割处理；对各个切割字符进行文字识别，以识别出各个切割字符对应的文字；将识别的各个文字按对应的切割字符在所述图像的字符版面中的位置，进行文字排版；将排版后的文字按文字排版格式输出到文本输入框。优选地，对获取的图像中的字符进行切割处理包括：对获取的图像中的所有字符进行切割处理；或者提供选择操作界面，供用户在获取的图像中选择待识别的图像区域，锁定用户基于所述操作界面选择的图像区域，并对选择的图像区域中的字符进行切割处理。优选地，对获取的图像中的字符进行切割处理包括：对获取的图像进行二值化、倾斜校正、分段落分行及字符切割。优选地，锁定用户基于所述操作界面选择的图像区域包括：

A、获取用户在所述操作界面的第一选择手势，所述第一选择手势为一条带有预设宽度的直线，根据该第一选择手势将该带有预设宽度的直线覆盖的图像区域锁定为待识别的图像区域；和 /或

B、获取用户在所述操作界面的第二选择手势，所述第二选择手势为两条连续的直线，根据该第二选择手势中的两条连续的直线锁定一个平行四边形区域作为待识别的图像区域。优选地，将识别的各个文字按对应的切割字符在所述图像的字符版面中的位置，进行文字排版之后，该方法还包括：将排版后的文字按文字排版格式传送给终端。本发明还提供一种信息输入装置，该装置包括：图像获取模块，设置为获取图像；切割处理模块，设置为对获取的图像中的字符进行切割处理； OCR识别模块，设置为对各个切割字符进行文字识别，以识别出各个切割字符对应的文字；排版模块，设置为将识别的各个文字按对应的切割字符在所述图像的字符版面中的位置，进行文字排版；输入模块，设置为将排版后的文字按文字排版格式输出到文本输入框。优选地，所述切割处理模块包括第一子切割处理单元或者第二子切割处理单元；所述第一子切割处理单元，设置为对获取的图像中的所有字符进行切割处理；所述第二子切割处理单元，设置为提供选择操作界面，供用户在获取的图像中选择待识别的图像区域，锁定用户基于所述操作界面选择的图像区域，并对选择的图像区域中的字符进行切割处理。优选地，所述切割处理模块还设置为对获取的图像进行二值化、倾斜校正、分段落分行及字符切割。优选地，所述第二子切割处理单元包括：提供单元，设置为提供选择操作界面，供用户在获取的图像中选择待识别的图像区域；锁定单元，设置为获取用户在所述操作界面的第一选择手势，所述第一选择手势为一条带有预设宽度的直线，根据该第一选择手势将该带有预设宽度的直线覆盖的图像区域锁定为待识别的图像区域；和 /或设置为获取用户在所述操作界面的第二选择手势，所述第二选择手势为两条连续的直线，根据该第二选择手势中的两条连续的直线锁定一个平行四边形区域作为待识别的图像区域；处理单元，设置为对锁定单元锁定的待识别的图像区域进行切割处理。优选地，所述装置还包括与所述排版模块连接的输出模块，所述输出模块设置为将排版后的文字按文字排版格式传送给终端。采用本发明实施例，可通过图像获取模块获取图像；对获取的图像中的字符进行切割处理；对各个切割字符进行文字识别，以识别出各个切割字符对应的文字；将识别的各个文字按对应的切割字符在所述图像的字符版面中的位置，进行文字排版；将排版后的文字按文字排版格式输出到文本输入框。本发明提供的方案可方便的实现信息输入，省时省力，提高信息输入效率。附图说明图 1为本发明的信息输入方法的第一实施例流程示意图; 图 2为本发明的息输入方法的第一实施例中的待识别区域的一示意图; 图 3为本发明的息输入方法的第一实施例中的待识别区域的又一示意图; 图 4为本发明的息输入方法的第二实施例流程示意图;

'、 _- 图 5为本发明的息输入装置的第一实施例结构框图; 图 6为本发明的信息输入装置的第二实施例结构框图。本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明₍ 具体实施方式应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。参照图 1，图 1为本发明的信息输入方法的第一实施例流程示意图，该方法包括：

S10、通过图像获取模块获取图像。该图像获取模块可以是摄像头，该摄像头可以是数字摄像头和 /或模拟摄像头。当用户需要将外部的非计算机可识别信息变成计算机可识别信息时（如将纸质文档中的文字转换成计算机可识别信息），通过图像获取模块获取非计算机可识别信息的图像，如通过摄像头拍摄需要输入信息所在纸的图像。在用户通过该图像获取模块获取图像时，可能由于手抖动或被拍摄物体抖动，导致拍摄的图像很模糊，达不到在后面步骤的文字识别要求，因此，在一个优选的实施方式中，还可对获取的图像进行图像清晰度判断，当判断结果为图像的清晰度没达到预设阀值时，则提醒用户重新通过图像获取模块获取图像。作为一种具体实施方式，在对获取的图形信息进行图像清晰度判断时，可利用图像的平均边缘强度作为检测值，当平均边缘强度小于预设边缘强度阀值时，则认为拍摄的图像模糊，当平均边缘强度大于或等于预设边缘强度阀值时，则认为拍摄的图像清楚。该平均边缘强度是指由边缘算法（如 Sobel算法等）获得。 S20、对获取的图像中的字符进行切割处理。在该步骤 S20中，对获取的图像中的字符进行切割处理，在具体实施过程中，可先对获取的图像进行前景色噪声过滤及背景色噪声过滤，然后对噪声过滤后的图像进行二值化、倾斜校正、分段落分行、字符切割。根据应用场景及系统设定的不同，以上二值化、倾斜校正、分段落分行、字符切割等过程可以采用不同的方式实现，例如，在一个优选实施方式中，二值化可以是将图像上的像素点的灰度值设置为 0或 255，也就是将整个图像呈现出明显的只有黑和白的视觉效果；倾斜校正，可以是对图像中的倾斜内容进行校正（在通过图像获取模块获取图像时，当被拍摄物倾斜放置时，将使得获得的内容倾斜），可预先设置一个水平基准线，再判断该图像边缘（可通过图像边缘检测检测出图像边缘，如通过以下步骤检测图像边缘： 1、滤波：边缘检测主要基于导数计算，但受噪声影响，但滤波器在降低噪声的同时也导致边缘强度的损失； 2、增强：增强算法将领域中灰度有显著变化的点突出显示。一般通过计算梯度幅值完成; 3、检测：但在有些图像中梯度幅值较大的并不是边缘点； 4、定位：精确确定边缘的位置。）与该水平基准线的夹角值，当该夹角值大于预设的倾斜角度值时，认为该图像倾斜，则对该图像进行倾斜校正，以使得该图像边缘与水平基准线的夹角值小于或等于预设的倾斜角度值，当该夹角值小于或等于预设的倾斜角度值时，认为该图像不倾斜，不需要进行倾斜校正；分段落分行，对图像中的文档图片先进行分段落再分行即进行版面分析。

S30、对各个切割字符进行文字识别，以识别出各个切割字符对应的文字。在该步骤 S30中，对各个切割字符进行文字识别，以识别出各个切割字符对应的文字，具体的，可通过预设的字符库与算法对各个切割字符进行识别，以识别出各个切割字符对应的文字。在该步骤中，可采用微软公司提供的 OCR引擎进行文字识别，它是一个公开的编程接口。

S40、将识别的各个文字按对应的切割字符在该图像的字符版面中的位置，进行文字排版。在该步骤 S40中，将识别出的各个字符进行版面恢复，即将识别出的各个文字按照对应的切割字符所在图像的字符版面中的位置进行排列，段落不变、位置不变、顺序不变。

S50、将排版后的文字按文字排版格式输出到文本输入框。在该步骤 S50中，将排版后的文字按文字排版格式输出到文本输入框，具体的，可先将排版后的文字按文字排版格式放置在剪切板上，以供虚拟键盘使用；再通过虚拟键盘将剪切板上的文字识别结果输入到鼠标焦点所在的文本输入框中。进一步的，以上步骤 S20可以包括：

S21、对获取的图像中的所有字符进行切割处理；或者，提供选择操作界面，供用户在获取的图像中选择待识别的图像区域，锁定用户基于该操作界面选择的图像区域，并对选择的图像区域中的字符进行切割处理。在该步骤 S21中，可对获取图像中的所有字符进行切割处理，而不需要用户选择待识别的区域，在需要对图像获取模块获取的图像进行整体识别时，可采用该种方式，方便快捷，提高识别效率。在该步骤 S21中，还可为用户提供选择操作界面，供用户在获取的图像中选择待识别的图像区域，锁定用户基于该操作界面选择的图像区域，并对选择的图像区域中的字符进行切割处理；具体的，用户可在该选择操作界面进行触摸操作，在该步骤 S21 中，根据用户的触摸操作锁定待识别的图像区域，如： A、获取用户在该操作界面的第一选择手势，该第一选择手势为一条带有预设宽度的直线，根据该第一选择手势将该带有预设宽度的直线覆盖的图像区域锁定为待识别的图像区域，和 /或， B、获取用户在该操作界面的第二选择手势，该第二选择手势为两条连续的直线，根据该第二选择手势中的两条连续的直线锁定一个平行四边形区域作为待识别的图像区域。该第一选择手势为一条带有预设宽度的直线，则在该步骤 S21中，根据该第一选择手势将该带有预设宽度的直线覆盖的图像区域锁定为待识别的图像区域。该预设宽度可根据实际需要设置，如可设置为 5mm、 7mm等，如果在步骤 S10中获取的图像中的文字比较大，则可适当将预设宽度设置大一点。该第一选择手势可沿着各个方向，如，当步骤 S10中获得的图像中的文字方向是水平的，则该第一选择手势可以沿着水平方向，当步骤 S10中获得的图像中的文字方向是垂直的，则该第一选择手势可以沿着垂直方向，当步骤 S10中获得的图像中的文字方向是斜向的，则该第一选择手势相应的沿着文字倾斜的方向。该第二选择手势为两条连续的直线，则在该步骤 S21中，根据该第二选择手势中的两条连续的直线锁定一个平行四边形区域作为待识别的图像区域。优选地，可以将用户的第二选择手势中的两条连续的直线中的第一条直线 al 作为平行四边形的对角线，第二条直线 a2作为平行四边形的其中一条边，然后锁定出一个平行四边形区域作为待识别的图像区域（如图 2所示）。优选地，可以将用户的第二选择手势中的两条连续的直线中的第一条直线 al作为平行四边形的边，第二条直线 a2也作为平行四边行的边，然后锁定出一个平行四边形区域作为待识别的图像区域（如图 3所示）。参照图 4，图 4为本发明的信息输入方法的第二实施例流程示意图。基于上述的信息输入方法的第一实施例，在步骤 S40之后，该方法还可以包括： S60、将排版后的文字按文字排版格式传送给终端。该终端可以为 PC机、手机、 Ipad等，在该步骤中，可通过 USB连接线将排版后的文字按文字排版格式传送给终端，也可以通过通信模块将排版后的文字按文字排版格式传送给终端，该通信模块可以是 wifi单元、蓝牙单元等。该终端接收按文字排版格式排版后的文字，并将排版后的文字按文字排版格式输入到鼠标焦点所在的文本输入框中，具体的，该终端将接收的排版后的文字放置在剪切板上，以供虚拟键盘使用，该虚拟键盘将剪切板上的排版后的文字输入到鼠标焦点所在的文本输入框中。参考图 5，图 5为本发明的信息输入装置的第一实施例结构示意图，该信息输入装置可以是手机，该信息输入装置包括：图像获取模块 10，与该图像获取模块连接的切割处理模块 20，与该切割处理模块 20连接的 OCR识别模块 30，与该 OCR (Optical Character Recognition, 光学字符识别）识别模块 30连接的排版模块 40，与该排版模块连接的输入模块 50，其中：图像获取模块 10，设置为获取图像；切割处理模块 20，设置为对获取的图像中的字符进行切割处理； OCR识别模块 30，设置为对各个切割字符进行文字识别，以识别出各个切割字符对应的文字；排版模块 40，设置为将识别的各个文字按对应的切割字符在该图像的字符版面中的位置，进行文字排版；输入模块 50，设置为将排版后的文字按文字排版格式输出到文本输入框。该图像获取模块 10可以是摄像头，该摄像头可以是数字摄像头和 /或模拟摄像头。当用户需要将外部的非计算机可识别信息变成计算机可识别信息时（如将纸质文档中的文字转换成计算机可识别信息），通过图像获取模块 10获取非计算机可识别信息的图像，如通过摄像头拍摄需要输入信息所在纸的图像。在用户通过该图像获取模块 10 获取图像时，可能由于手抖动或被拍摄物体抖动，导致拍摄的图像很模糊，达不到在后面步骤的文字识别要求，因此，在一个优选的实施方式中，还可先对获取的图像进行图像清晰度判断，当判断结果为图像的清晰度没达到预设阀值时，则提醒用户重新通过图像获取模块获取图像。作为一种具体实施方式，在对获取的图形信息进行图像清晰度判断时，可利用图像的平均边缘强度作为检测值，当平均边缘强度小于预设边缘强度阀值时，则认为拍摄的图像模糊，当平均边缘强度大于或等于预设边缘强度阀值时，则认为拍摄的图像清楚。该平均边缘强度是指由边缘算法（如 Sobel算法等）获得。切割处理模块 20对获取的图像中的字符进行切割处理，在具体实施过程中，可先对获取的图像进行前景色噪声过滤及背景色噪声过滤，然后对噪声过滤后的图像进行二值化、倾斜校正、分段落分行、字符切割。根据应用场景及系统设定的不同，以上二值化、倾斜校正、分段落分行、字符切割等过程可以采用不同的方式实现，例如，在一个优选实施方式中，二值化可以是将图像上的像素点的灰度值设置为 0或 255，也就是将整个图像呈现出明显的只有黑和白的视觉效果；倾斜校正，可以是对图像中的倾斜内容进行校正（在通过图像获取模块获取图像时，当被拍摄物倾斜放置时，将使得获得的内容倾斜），可预先设置一个水平基准线，再判断该图像边缘（可通过图像边缘检测检测出图像边缘，如通过以下步骤检测图像边缘： 1、滤波：边缘检测主要基于导数计算，但受噪声影响，但滤波器在降低噪声的同时也导致边缘强度的损失； 2、增强：增强算法将领域中灰度有显著变化的点突出显示。一般通过计算梯度幅值完成; 3、检测：但在有些图像中梯度幅值较大的并不是边缘点； 4、定位：精确确定边缘的位置。）与该水平基准线的夹角值，当该夹角值大于预设的倾斜角度值时，认为该图像倾斜，则对该图像进行倾斜校正，以使得该图像边缘与水平基准线的夹角值小于或等于预设的倾斜角度值，当该夹角值小于或等于预设的倾斜角度值时，认为该图像不倾斜，不需要进行倾斜校正；分段落分行，对图像中的文档图片先进行分段落再分行即进行版面分析。该 OCR识别模块 30对各个切割字符进行文字识别，以识别出各个切割字符对应的文字，具体的，可通过预设的字符库与算法对各个切割字符进行识别，以识别出各个切割字符对应的文字。该 OCR识别模块可采用微软公司提供的 OCR引擎，它是一个公开的编程接口。排版模块 40将识别出的各个字符进行版面恢复，即将识别出的各个文字按照对应的切割字符所在图像的字符版面中的位置进行排列，段落不变、位置不变、顺序不变。输入模块 50将排版后的文字按文字排版格式输出到文本输入框，具体的，可先将排版后的文字按文字排版格式放置在剪切板上，以供虚拟键盘使用；再通过虚拟键盘将剪切板上的文字识别结果输入到鼠标焦点所在的文本输入框中。进一步的，该切割处理模块 20包括第一子切割处理单元 21或者第二子切割处理单元 22; 该第一子切割处理单元 21，设置为对获取的图像中的所有字符进行切割处理；该第二子切割处理单元 22，设置为提供选择操作界面，供用户在获取的图像中选择待识别的图像区域，锁定用户基于该操作界面选择的图像区域，并对选择的图像区域中的字符进行切割处理。该切割处理模块 20也可同时包括第一子切割处理单元 21和第二子切割处理单元 22。该第一子切割处理单元 21可对获取图像中的所有字符进行切割处理，而不需要用户选择待识别的区域，在需要对图像获取模块获取的图像进行整体识别时，可采用该种方式，方便快捷，提高识别效率。该第二子切割处理单元 22为用户提供选择操作界面，供用户在获取的图像中选择待识别的图像区域，锁定用户基于该操作界面选择的图像区域，并对选择的图像区域中的字符进行切割处理。用户可在该选择操作界面通过鼠标选取或通过触摸选取待识别的图像区域。进一步的，该第二子切割处理单元 22包括：提供单元，设置为提供选择操作界面，供用户在获取的图像中选择待识别的图像区域；锁定单元，设置为获取用户在该操作界面的第一选择手势，该第一选择手势为一条带有预设宽度的直线，根据该第一选择手势将该带有预设宽度的直线覆盖的图像区域锁定为待识别的图像区域；和 /或设置为获取用户在该操作界面的第二选择手势，该第二选择手势为两条连续的直线，根据该第二选择手势中的两条连续的直线锁定一个平行四边形区域作为待识别的图像区域；处理单元，设置为对锁定单元锁定的待识别的图像区域进行切割处理。该提供单元为用户提供选择操作界面，用户在该选择操作界面进行触摸操作。该锁定单元获取用户在该选择操作界面的触摸操作，并根据用户的触摸操作锁定待识别的图像区域，如： A、获取用户在该操作界面的第一选择手势，该第一选择手势为一条带有预设宽度的直线，根据该第一选择手势将该带有预设宽度的直线覆盖的图像区域锁定为待识别的图像区域，和 /或， B、获取用户在该操作界面的第二选择手势，该第二选择手势为两条连续的直线，根据该第二选择手势中的两条连续的直线锁定一个平行四边形区域作为待识别的图像区域。该第一选择手势为一条带有预设宽度的直线，则该第二子切割处理单元 22，根据该第一选择手势将该带有预设宽度的直线覆盖的图像区域锁定为待识别的图像区域。该预设宽度可根据实际需要设置，如可设置为 5mm、 7mm等，如果图像获取模块 10 获取的图像中的文字比较大，则可适当将预设宽度设置大一点。该第一选择手势可沿着各个方向，如，当图像获取模块 10获得的图像中的文字方向是水平的，则该第一选择手势可以沿着水平方向，当图像获取模块 10获得的图像中的文字方向是垂直的，则该第一选择手势可以沿着垂直方向，当图像获取模块 10获得的图像中的文字方向是斜向的，则该第一择手势相应的沿着文字倾斜的方向。该第二选择手势为两条连续的直线，则第二子切割处理单元 22根据该第二选择手势中的两条连续的直线锁定一个平行四边形区域作为待识别的图像区域。优选地，可以将用户的第二选择手势中的两条连续的直线中的第一条直线 al 作为平行四边形的对角线，第二条直线 a2作为平行四边形的其中一条边，然后锁定出一个平行四边形区域作为待识别的图像区域（如图 2所示）。优选地，可以将用户的第二选择手势中的两条连续的直线中的第一条直线 al作为平行四边形的边，第二条直线 a2也作为平行四边行的边，然后锁定出一个平行四边形区域作为待识别的图像区域（如图 3所示）。

参考图 6，图 6为本发明的信息输入装置的第二实施例结构示意图。基于上述的信息输入装置的第一实施例，该装置还包括与所述排版模块连接的输出模块 60，设置为将排版后的文字按文字排版格式传送给终端。该终端可以为 PC机、手机、 Ipad等，该输出模块可以为 USB接口，通过该 USB 接口和 USB连接线将排版后的文字按文字排版格式传送给终端；该输出模块也可以为通讯模块，通过该通讯模块将排版后的文字按文字排版格式传送给终端，该通信模块可以是 wifi单元、蓝牙单元等。该终端接收按文字排版格式排版后的文字，并将排版后的文字按文字排版格式输入到鼠标焦点所在的文本输入框中，具体的，该终端将接收的排版后的文字放置在剪切板上，以供虚拟键盘使用，该虚拟键盘将剪切板上的排版后的文字输入到鼠标焦点所在的文本输入框中。以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围。

Claims

权利要求书、一种信息输入方法，包括：

通过图像获取模块获取图像；

对获取的图像中的字符进行切割处理；

对各个切割字符进行文字识别，以识别出各个切割字符对应的文字；将识别的各个文字按对应的切割字符在所述图像的字符版面中的位置，进行文字排版；

将排版后的文字按文字排版格式输出到文本输入框。、根据权利要求 1所述的方法，其中，对获取的图像中的字符进行切割处理包括:

对获取的图像中的所有字符进行切割处理；或者

提供选择操作界面，供用户在获取的图像中选择待识别的图像区域，锁定用户基于所述操作界面选择的图像区域，并对选择的图像区域中的字符进行切割处理。、根据权利要求 1或 2所述的方法，其中，对获取的图像中的字符进行切割处理包括：

对获取的图像进行二值化、倾斜校正、分段落分行及字符切割。、根据权利要求 2所述的方法，其中，锁定用户基于所述操作界面选择的图像区域包括：

B、获取用户在所述操作界面的第二选择手势，所述第二选择手势为两条连续的直线，根据该第二选择手势中的两条连续的直线锁定一个平行四边形区域作为待识别的图像区域。、根据权利要求 1所述的方法，其中，将识别的各个文字按对应的切割字符在所述图像的字符版面中的位置，进行文字排版之后，所述方法还包括：

将排版后的文字按文字排版格式传送给终端。、一种信息输入装置，包括：

图像获取模块，设置为获取图像；

切割处理模块，设置为对获取的图像中的字符进行切割处理；

OCR识别模块，设置为对各个切割字符进行文字识别，以识别出各个切割字符对应的文字；

排版模块，设置为将识别的各个文字按对应的切割字符在所述图像的字符版面中的位置，进行文字排版；

输入模块，设置为将排版后的文字按文字排版格式输出到文本输入框。、根据权利要求 6所述的装置，其中，所述切割处理模块包括第一子切割处理单元或者第二子切割处理单元；

所述第一子切割处理单元，设置为对获取的图像中的所有字符进行切割处理；

所述第二子切割处理单元，设置为提供选择操作界面，供用户在获取的图像中选择待识别的图像区域，锁定用户基于所述操作界面选择的图像区域，并对选择的图像区域中的字符进行切割处理。、根据权利要求 6或 7所述的装置，其中，所述切割处理模块还设置为对获取的图像进行二值化、倾斜校正、分段落分行及字符切割。、根据权利要求 7所述的装置，其中，所述第二子切割处理单元包括：

提供单元，设置为提供选择操作界面，供用户在获取的图像中选择待识别的图像区域；

锁定单元，设置为获取用户在所述操作界面的第一选择手势，所述第一选择手势为一条带有预设宽度的直线，根据该第一选择手势将该带有预设宽度的直线覆盖的图像区域锁定为待识别的图像区域；和 /或设置为获取用户在所述操作界面的第二选择手势，所述第二选择手势为两条连续的直线，根据该第二选择手势中的两条连续的直线锁定一个平行四边形区域作为待识别的图像区域；处理单元，设置为对锁定单元锁定的待识别的图像区域进行切割处理。 0、根据权利要求 6所述的装置，还包括与所述排版模块连接的输出模块，所述输出模块设置为将排版后的文字按文字排版格式传送给终端。