WO2021146937A1 - 文字识别方法、文字识别装置和存储介质 - Google Patents

文字识别方法、文字识别装置和存储介质 Download PDF

Info

Publication number
WO2021146937A1
WO2021146937A1 PCT/CN2020/073576 CN2020073576W WO2021146937A1 WO 2021146937 A1 WO2021146937 A1 WO 2021146937A1 CN 2020073576 W CN2020073576 W CN 2020073576W WO 2021146937 A1 WO2021146937 A1 WO 2021146937A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
group
feature map
convolution
text box
Prior art date
Application number
PCT/CN2020/073576
Other languages
English (en)
French (fr)
Inventor
黄光伟
李月
史新艳
Original Assignee
京东方科技集团股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 京东方科技集团股份有限公司 filed Critical 京东方科技集团股份有限公司
Priority to PCT/CN2020/073576 priority Critical patent/WO2021146937A1/zh
Priority to CN202080000058.XA priority patent/CN113498520B/zh
Publication of WO2021146937A1 publication Critical patent/WO2021146937A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image

Definitions

  • ss1 is 5 and ss2 is 2.
  • the first angle threshold is 80 degrees
  • the second angle threshold is 10 degrees
  • performing text detection on each intermediate input image to obtain the intermediate text box group corresponding to each intermediate input image includes: using a text detection neural network Perform text detection on each intermediate input image to determine the text detection area group corresponding to each intermediate input image; use the smallest bounding rectangle algorithm to process the text detection area group to determine the intermediate text box Group, wherein the text detection area group includes at least one text detection area, the at least one text detection area corresponds to the at least one middle text box one-to-one, and each middle text box covers a corresponding text detection area .
  • the text recognition neural network is a multi-target corrective attention network.
  • the character recognition method provided by at least one embodiment of the present disclosure further includes: translating the target text to obtain and output the translation result of the target text.
  • FIG. 11B is a schematic diagram of a model result of a text detection neural network based on a focus loss function provided by at least one embodiment of the present disclosure
  • FIG. 13 is a schematic diagram of a storage medium provided by at least one embodiment of the present disclosure.
  • S104 Recognize the final target text box to obtain the target text.
  • step S1011 for the case where the pixel connection algorithm does not adapt to changes in the text scale in the input image, the input image can be transformed with different scales to construct an image pyramid (ie, multiple intermediate input images), so that various text The standards can be met, and the accuracy of text detection can be improved at the same time.
  • an image pyramid ie, multiple intermediate input images
  • the plurality of intermediate input images may include input images, and the sizes of the plurality of intermediate input images are different from each other.
  • the size of the input image is W*H, that is, the width of the input image is W, the height of the input image is H, and the input image is scaled to adjust the size of the input image to 1.5. *(W*H), 0.8*(W*H), 0.6*(W*H), 0.4*(W*H) to obtain multiple intermediate input images.
  • the plurality of intermediate input images may include a first intermediate input image, a second intermediate input image, a third intermediate input image, a fourth intermediate input image, and a fifth intermediate input image.
  • FIG. 2A shows the first intermediate input image
  • Fig. 2B shows the second intermediate input image
  • the size of the second intermediate input image is 0.6*(W*H)
  • Fig. 2C shows The third intermediate input image
  • the size of the third intermediate input image is 0.8*(W*H)
  • Figure 2D shows the fourth intermediate input image
  • the size of the fourth intermediate input image is (W*H), that is That is, the fourth intermediate input image is the input image, the image shown in FIG.
  • the number of middle text boxes in the middle text box group corresponding to the fifth middle input image may be 8.
  • the text group contained in the intermediate text box of the intermediate text box group corresponding to the first intermediate input image includes text: “ur”, “of”, “French”, “Spring's”, “studio”, “to”, “view” and “desig”;
  • the text group contained in the middle text box of the middle text box group corresponding to the fifth middle input image also includes text: “ur”, “of “, “French”, “Spring's", “studio”, “to”, “view” and “desig”.
  • the middle text box including "ur” corresponding to the first intermediate input image and the middle text box including “ur” corresponding to the fifth intermediate input image correspond to each other
  • the intermediate text including "French” corresponding to the first intermediate input image correspond to each other, and so on.
  • performing text detection on each intermediate input image to obtain the intermediate text box group corresponding to each intermediate input image includes: performing text detection on each intermediate input image using a text detection neural network to determine each intermediate input image.
  • the text detection area group corresponding to the middle input image; the text detection area group is processed by the smallest enclosing rectangle algorithm to determine the middle text box group.
  • a text detection neural network can use a pixel link (PixelLink) algorithm for text detection.
  • pixel link PixelLink
  • the text detection area group includes at least one text detection area, at least one text detection area corresponds to at least one middle text box, and each middle text box includes a corresponding text detection area, that is, the middle text box covers the corresponding The text detection area.
  • findContours OpenCV-based contour detection
  • the text detection neural network can use the VGG16 network as the feature extractor, and replace the fully connected layer in the VGG16 network with a convolutional layer.
  • the method of feature fusion and pixel prediction is based on the idea of FPN (feature pyramid network, pyramid feature network), that is, the size of the convolutional layer in the text detection neural network is halved, but the convolution kernel in the convolutional layer The number doubled in turn.
  • FPN feature pyramid network, pyramid feature network
  • the text detection neural network may include a first convolution module 301 to a fifth convolution module 305, a first down-sampling module 306 to a fifth down-sampling module 310, and a fully connected
  • the first convolution module 301 may include two convolution layers conv1_1 and conv1_2, and each convolution layer in the first convolution module 301 includes 8 convolution kernels;
  • the second convolution module 302 may include two convolution layers. Build layers conv2_1 and conv2_2, each convolution layer in the second convolution module 302 includes 16 convolution kernels;
  • the third convolution module 303 may include three convolution layers conv3_1 to conv3_3, in the third convolution module 303 Each convolution layer of includes 32 convolution kernels;
  • the fourth convolution module 304 may include three convolution layers conv4_1 to conv4_3, and each convolution layer in the fourth convolution module 304 includes 64 convolution kernels;
  • the fifth convolution module 305 may include three convolution layers conv5_1 to conv5_3, and each convolution layer in the fifth convolution module 305 includes 128 convolution kernels.
  • each convolutional layer includes an activation function.
  • the activation function may be a
  • using a text detection neural network to perform text detection on each intermediate input image to determine the text detection area group corresponding to each intermediate input image includes: using a first convolution module to perform convolution processing on each intermediate input image to Obtain the first convolution feature map group; use the first down-sampling module to perform down-sampling processing on the first convolution feature map group to obtain the first down-sampled feature map group; use the second convolution module to down-sample the first feature
  • the image group is subjected to convolution processing to obtain the second convolution feature image group; the second downsampling module is used to downsample the second convolution feature image group to obtain the second downsampled feature image group; the third volume is used
  • the product module performs convolution processing on the second down-sampled feature map group to obtain the third convolution feature map group; uses the third down-sampling module to perform down-sampling processing on the third convolution feature map group to obtain the third down-sampling Feature map group, and use the first dimensionality reduction module to
  • the size of each intermediate input image may be 512*512, the number of channels is 3, and the 3 channels are respectively a red channel, a blue channel, and a green channel.
  • the number of feature maps in the first convolution feature map group CN1 is 8, and the size of each feature map in the first convolution feature map group CN1 may be 512*512;
  • second The number of feature maps in the convolution feature map group CN2 is 16, and the size of each feature map in the second convolution feature map group CN2 can be 256*256;
  • the feature maps in the third convolution feature map group CN3 The number of feature maps is 32, and the size of each feature map in the third convolution feature map group CN3 can be 128*128;
  • the number of feature maps in the fourth convolution feature map group CN4 is 64, and the fourth convolution
  • the size of each feature map in the feature map group CN4 can be 64*64;
  • the number of feature maps in the fifth convolution feature map group CN5 is 128, and each feature map in the fifth convolution feature map group CN5
  • the fourth convolution feature map group CN4 is the input of the fourth down-sampling module 309, and the fourth down-sampling module 309 performs down-sampling processing on the fourth convolution feature map group CN4 to obtain the fourth down-sampled feature map group DP4.
  • the number of feature maps in the fourth down-sampled feature map group DP4 is 64, and the size of each feature map in the fourth down-sampled feature map group DP4 is 32*32.
  • the fourth down-sampling feature map group DP4 is the input of the fifth convolution module 305.
  • the fifth convolution feature map group CN5 is the input of the fifth down-sampling module 310, and the fifth down-sampling module 310 performs down-sampling processing on the fifth convolution feature map group CN5 to obtain the fifth down-sampled feature map group DP5.
  • the number of feature maps in the fifth down-sampled feature map group DP5 is 128, and the size of each feature map in the fifth down-sampled feature map group DP5 is 16*16.
  • the fifth down-sampling characteristic map group DP5 is the input of the fully connected module 311.
  • the sixth convolution feature map group CN6 is also the input of the fourth dimensionality reduction module 318, and the fourth dimensionality reduction module 318 performs dimensionality reduction processing on the sixth convolution feature map group CN6 to obtain the fourth dimensionality reduction feature map group DR4 ,
  • the number of feature maps in the fourth dimensionality reduction feature map group DR4 is 10, and the size of each feature map in the fourth dimensionality reduction feature map group DR4 is 16*16.
  • FIG. 4 is a schematic diagram of a pixel in a feature map and neighboring pixels of the pixel according to at least one embodiment of the present disclosure.
  • a classification probability threshold may be set, for example, 0.7.
  • the connection prediction probability of a pixel is greater than or equal to the classification probability threshold, it means that the pixel can be connected to an adjacent pixel.
  • the value of the pixel PX1 in the first classification feature map is 0.8, that is, the connection prediction probability (0.8) of the pixel PX1 and the pixel PX2 is greater than the classification probability threshold (0.7).
  • the text detection area group can be determined in a combined search method. For example, each intermediate input image passes through the text detection neural network shown in Figure 3 to obtain the text/non-text (positive/negative) classification prediction probability of each pixel, and the four neighborhood directions of each pixel and the pixel. Whether there is a link prediction probability of adjacent pixels.
  • the text detection neural network includes a first convolution module 501 to a fifth convolution module 505, a first down-sampling module 506 to a fifth down-sampling module 510, and a fully connected Module 511, first up-sampling module 512 to third up-sampling module 514, first dimensionality reduction module 515 to fifth dimensionality reduction module 519, and classifier 520.
  • using a text detection neural network to perform text detection on each intermediate input image to determine the text detection area group corresponding to each intermediate input image includes: using a first convolution module to perform convolution processing on the input image to obtain the first Convolution feature map group; use the first down-sampling module to perform down-sampling processing on the first convolution feature map group to obtain the first down-sampled feature map group; use the second convolution module to perform down-sampling on the first down-sampled feature map group Convolution processing to obtain the second convolution feature map group; use the second down-sampling module to perform down-sampling processing on the second convolution feature map group to obtain the second down-sampled feature map group, and use the first dimensionality reduction module Perform dimensionality reduction processing on the second convolution feature map group to obtain the first dimensionality reduction feature map group; use the third convolution module to perform convolution processing on the second down-sampled feature map group to obtain the third convolution feature map Group; use the third down-sampling module to perform down-s
  • the number of feature maps in each of the first fusion feature map group FU51 to the fourth fusion feature map group FU54 is 18.
  • the size of each feature map in the first fusion feature map group FU51 is 32*32; the size of each feature map in the second fusion feature map group FU52 is 64*64; each feature map in the third fusion feature map group FU53
  • the size of each feature map is 128*128; the size of each feature map in the fourth fusion feature map group FU54 is 256*256.
  • the classifier 520 performs classification processing on the fourth fusion feature map group FU54 to obtain a text classification prediction map and a connection classification prediction map.
  • the text classification prediction map includes 2 feature maps
  • the connection classification prediction map includes 16 feature maps. It should be noted that the value of each feature map in the text classification prediction map and the connection classification prediction map is greater than or equal to 0 and less than or equal to 1, and represents the text prediction probability or the connection prediction probability.
  • the feature map in the text classification prediction map indicates the probability map of whether each pixel is text
  • the feature map in the connection classification prediction map indicates the probability map of whether each pixel is connected to the neighboring pixels of the pixel's eight neighborhoods.
  • the text detection neural network shown in Figure 5 combines the features extracted from the second convolution module to the fifth convolution module, while the text detection neural network shown in Figure 3 only combines the first Features extracted from the third convolution module to the fifth convolution module. Therefore, compared with the text detection neural network shown in Figure 5, the text detection neural network shown in Figure 3 has the characteristics of a small network model and a small amount of calculation under the condition of ensuring the detection accuracy. For example, the size of the network model The calculation speed is reduced by about 50 times, and the calculation speed is increased by about 10 times, which can reduce the calculation amount of the text detection neural network, speed up the calculation efficiency of the text detection neural network, reduce user waiting time, and improve user experience.
  • FIG. 7A is the connection result of the connection based on the eight domain directions of pixels
  • FIG. 7B is the connection result of the connection based on the four domain directions of the pixel. It can be seen from Figure 7A and Figure 7B that in Figure 7A, "any communications yet" is divided into the same text box, and "subjects in” is also divided into the same text box, that is, the phenomenon of text sticking occurs.
  • a text box can include multiple texts.
  • step S1013 includes: for the i-th text box, determining the coordinate group of the i-th text box according to the coordinate groups corresponding to the multiple i-th middle text boxes of the plurality of middle text box groups, thereby determining all the text in the text box group The coordinate group of the box.
  • the obtained text box group can be more accurate.
  • the coordinate group corresponding to each i-th middle text box may be the four vertices of the i-th middle text box of the rectangle (for example, the four vertices are the upper left vertex, the lower left vertex, the upper right vertex, and the lower right corner of the rectangle.
  • the coordinates of the vertices can be determined based on the coordinates of the four vertices to determine the size and position of the i-th middle text box.
  • the coordinate groups corresponding to the multiple i-th middle text boxes of the multiple middle text box groups may be weighted and summed to determine the coordinate group of the i-th text box.
  • the coordinate groups corresponding to the first ith middle text box to the fifth ith middle text box are weighted and averaged to determine the coordinate group of the ith text box, for example, the first The coordinates of the upper left corner of the i middle text box to the fifth ith middle text box are weighted and averaged to obtain the coordinates of the upper left corner of the ith text box; the first ith middle text box to the fifth ith middle text box The coordinates of the bottom left vertex of the middle text box are weighted and averaged to obtain the coordinates of the bottom left vertex of the i-th text box; the coordinates of the top right vertex of the first i-th middle text box to the fifth i-th middle text box are performed Weighted average to get the coordinates of the top right corner of the i-th text box; the coordinates of the bottom right corner of the first i-th middle text box to the fifth i-th middle text box are weighted and averaged to get the i-th text box The coordinates of the vertex
  • the method of determining the coordinate group of the i-th text box is not limited to the method described above, and other suitable methods can also be used according to the first i-th middle text box to the fifth middle text box.
  • the coordinate group corresponding to the i-th middle text box determines the coordinate group of the i-th text box, which is not specifically limited in the present disclosure.
  • FIG. 8A is a schematic diagram of a text box group in an input image provided by another embodiment of the present disclosure
  • FIG. 8B is a schematic diagram of a text box group in another input image provided by another embodiment of the present disclosure.
  • the overlap between at least one text box in the input image and the area to be detected is calculated separately, so that at least one overlap area can be determined.
  • the text box corresponding to the largest overlap area in the at least one overlap area is used as the target text box.
  • the text is the target text selected by the user.
  • the third overlap area is the largest, that is, the third overlap area between the text box containing the text "neural" and the area to be detected is the largest, so that the text contains the text "neural"
  • the text box is the target text box, and the text "neural" is the target text. It should be noted that FIG. 8B only shows the target text box.
  • determining the correction angle and correction direction for the target text box according to the deflection angle and coordinate group of the at least one text box may include: determining N deflection angles corresponding to the N text boxes The average deflection angle of the text box; determine whether the average deflection angle is greater than the first angle threshold or less than the second angle threshold; in response to the average deflection angle being greater than the first angle threshold or less than the second angle threshold, determine the correction angle for the target text box 0 degrees; or, in response to the average deflection angle being less than or equal to the first angle threshold and greater than or equal to the second angle threshold, determine the N length and width corresponding to the N text boxes according to the N coordinate groups corresponding to the N text boxes Ratio, the correction direction for the target text box is determined according to the N aspect ratios, and the correction angle is determined according to the N de
  • the coordinate group of each text box in at least one text box includes the coordinates of at least three vertices of each text box.
  • each text box has four vertices
  • the coordinate group of each text box includes the coordinates of the three vertices or the coordinates of the four vertices of each text box.
  • the target text The box is the final target text box, and text recognition is directly performed on the final target text box (ie, target text box).
  • the target text box needs to be rotated to obtain the final target text box, and then text recognition is performed on the final target text box.
  • the vertex furthest from the X axis is taken as the first vertex T1, and the coordinates (x0, y0) of the first vertex T1 are determined , And then, based on the first vertex T1, clockwise to get the second vertex T2, the third vertex T3 and the fourth vertex T4 of the text box, and then determine the coordinates of the second vertex T2 (x1, y1) , The coordinates (x2, y2) of the third vertex T3 and the coordinates (x3, y3) of the fourth vertex T4.
  • the width of the text box indicates that the first vertex T1 is the origin and is rotated counterclockwise to the nearest side of the text box
  • the length of the text box indicates the width adjacent side of the text box.
  • the width of the text box is expressed as Wd
  • the length of the text box is expressed as Hg
  • the aspect ratio of the text box is expressed as Hg/Wd.
  • the width Wd of the text box is smaller than the length Hg of the text box.
  • the width Wd of the text box may also be greater than or equal to the length Hg of the text box.
  • the text box group is divided into a first text box subgroup and a second text box subgroup.
  • the aspect ratio of each text box in the first text box subgroup is greater than or equal to 1, that is, the length of each text box in the first text box subgroup is greater than or equal to the width of the text box, for example, as shown in FIG. 9
  • the text box of is the text box in the first text box subgroup.
  • the aspect ratio of each text box in the second text box subgroup is less than 1, that is, the length of each text box in the first text box subgroup is less than the width of the text box.
  • r0 is 2, but the present disclosure is not limited to this, and the value of r0 can be set according to specific requirements.
  • the character recognition method further includes: responding to the number of first text boxes and the number of second text boxes not satisfying the first condition and the second condition , Make sure that the correction angle used for the target text box is 0 degrees.
  • the judgment formula for the correction direction is:
  • the correction direction is 0
  • the correction direction is arbitrary or does not need to be corrected.
  • the correction angle can be determined according to N deflection angles.
  • the target text box does not need to be corrected.
  • One angle quantity is the quantity of deflection angles in the first deflection angle group
  • the second angle quantity is the quantity of deflection angles in the second deflection angle group
  • the third angle quantity is the quantity of deflection angles in the third deflection angle group
  • 1 ⁇ i ⁇ P, ai represents the i-th deflection angle from the first deflection angle in the second deflection angle group to the P-th deflection angle.
  • the correction angle used for the target text box is the deflection angle of the target text box. It should be noted that, in some embodiments, when the deflection angle of the target text box is greater than the first angle threshold or less than the second angle threshold, it can be determined that the correction angle is 0 degrees.
  • determining the correction direction for the target text box of the intermediate text according to the aspect ratio of the target text box includes: in response to the aspect ratio of the target text box being greater than or equal to 1, determining that the correction direction is a counterclockwise direction; Or, in response to the aspect ratio of the target text box being less than 1, it is determined that the correction direction is the clockwise direction.
  • “in response to the correction angle” means that the response to the correction angle is not 0 degrees.
  • rotating the target text box according to the correction angle to obtain the final target text box includes: rotating the input image according to the correction angle and the correction direction, so that the target text box is rotated to obtain the final target text box; or Perform cutting processing to obtain the cut target text box, and rotate the cut target text box according to the correction angle and correction direction to obtain the final target text box.
  • p t represents the classification probability of different categories (for example, text prediction probability or connection prediction probability)
  • (1-p t ) represents the adjustment coefficient
  • represents the focus parameter, and is a value greater than 0
  • step S104 may include: using a text recognition neural network to perform recognition processing on the final target text box to obtain the intermediate text; and verify the intermediate text to obtain the target text.
  • the text recognition neural network is a multi-objective corrective attention network (MORAN), and the multi-objective corrective attention network may include a corrective sub-network (MORN) and a recognition sub-network (ASRN).
  • MORN corrective sub-network
  • ASRN recognition sub-network
  • the correction sub-network decomposes the final target text box into multiple small images, and then regresses the offset for each small image, and performs a smoothing operation on the offset, and then performs a sampling operation on the final target text box to obtain a new
  • the horizontal text box with a more regular shape is the final target text box after correction.
  • the recognition sub-network is to input the corrected final target text box into the convolutional recurrent neural network based on the attention mechanism for text recognition, so as to obtain the recognized intermediate text.
  • using a text detection neural network to perform text detection on the input image to determine the text box group includes: performing scale transformation processing on the input image to obtain multiple intermediate input images; for each intermediate input of the multiple intermediate input images Image, use text detection neural network to perform text detection on each intermediate input image to obtain the intermediate text box group corresponding to each intermediate input image, thereby obtaining multiple intermediate text box groups corresponding to multiple intermediate input images, where each Each middle text box group includes at least one middle text box; the text box group is determined according to the plurality of middle text box groups.
  • the plurality of intermediate input images include input images, and the sizes of the plurality of intermediate input images are different from each other. It should be noted that the relevant description of the intermediate input image can refer to the description in the embodiment of the above-mentioned character recognition method, which will not be repeated here.
  • the text recognition device 1200 further includes a translation pen 1250, and the translation pen 1250 is used to select the target text.
  • the image acquisition device 1210 is arranged on the translation pen 1250.
  • the image acquisition device 1210 may be a camera arranged on the translation pen 1250.
  • the electronic device can receive the input image sent from the translation pen 1250 via a wired or wireless manner, and perform text recognition processing on the input image.
  • the memory 1220 and the processor 1230 may also be integrated in a cloud server.
  • the translation pen 1250 and the cloud server communicate in a wired or wireless manner.
  • the cloud server receives the input image and performs text recognition processing on the input image.
  • the text recognition device 1200 may further include an output device, and the output device is used to output the translation result of the target text.
  • the output device may include a display, a speaker, a projector, etc.
  • the display may be used to display the translation result of the target text
  • the speaker may be used to output the translation result of the target text in the form of voice.
  • the translation pen 1250 may further include a communication module, which is used to implement communication between the translation pen 1250 and the output device, for example, to transmit the translation result to the output device.
  • the processor 1230 may control other components in the character recognition device 1200 to perform desired functions.
  • the processor 1230 may be a central processing unit (CPU), a tensor processor (TPU), and other devices with data processing capabilities and/or program execution capabilities.
  • the central processing unit (CPU) can be an X86 or ARM architecture.
  • the GPU can be directly integrated on the motherboard alone or built into the north bridge chip of the motherboard. The GPU can also be built into the central processing unit (CPU).
  • the memory 1220 may include any combination of one or more computer program products, and the computer program products may include various forms of computer-readable storage media, such as volatile memory and/or non-volatile memory.
  • Volatile memory may include random access memory (RAM) and/or cache memory (cache), for example.
  • Non-volatile memory may include, for example, read only memory (ROM), hard disk, erasable programmable read only memory (EPROM), portable compact disk read only memory (CD-ROM), USB memory, flash memory, etc.
  • One or more computer-readable instructions may be stored on the computer-readable storage medium, and the processor 1230 may run the computer-readable instructions to implement various functions of the text recognition apparatus 1200.
  • the network may include a wireless network, a wired network, and/or any combination of a wireless network and a wired network.
  • the network may include a local area network, the Internet, a telecommunications network, the Internet of Things (Internet of Things) based on the Internet and/or a telecommunications network, and/or any combination of the above networks, and so on.
  • the wired network may, for example, use twisted pair, coaxial cable, or optical fiber transmission for communication, and the wireless network may use, for example, a 3G/4G/5G mobile communication network, Bluetooth, Zigbee, or WiFi.
  • the present disclosure does not limit the types and functions of the network here.
  • FIG. 13 is a schematic diagram of a storage medium provided by at least one embodiment of the present disclosure.
  • one or more computer-readable instructions 1301 may be stored on the storage medium 1300 non-transitory.
  • the computer-readable instructions 1301 are executed by a computer, one or more steps in the character recognition method described above can be executed.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

一种文字识别方法、文字识别装置和存储介质。文字识别方法包括:获取输入图像;对输入图像进行文本检测,以确定文本框组,其中,文本框组包括至少一个文本框;从至少一个文本框中确定目标文本框,其中,目标文本框包括目标文本;获取至少一个文本框的坐标组和相对于基准方向的偏转角度,根据至少一个文本框的偏转角度和坐标组,确定用于目标文本框的校正角度和校正方向,按照校正角度和所述方向旋转目标文本框以得到最终目标文本框;对最终目标文本框进行识别,以得到目标文本。

Description

文字识别方法、文字识别装置和存储介质 技术领域
本公开的实施例涉及一种文字识别方法、文字识别装置和存储介质。
背景技术
当用户阅读文章,遇到生词需要查询时,可以采用以下几种方式进行查询:(1)字典:具有不易携带、翻阅查询、效率极低的缺点;(2)手机应用或电子词典:具有键盘输入耗时、操作繁琐、易打断思路、散精力的缺点;(3)扫译笔产品:具有易发生误扫描、漏扫描、需要用户适应产品的使用模式等缺点。
发明内容
本公开至少一实施例提供一种文字识别方法,包括:获取输入图像;对所述输入图像进行文本检测,以确定文本框组,其中,所述文本框组包括至少一个文本框;从所述至少一个文本框中确定目标文本框,其中,所述目标文本框包括目标文本;获取所述至少一个文本框的坐标组和相对于基准方向的偏转角度,根据所述至少一个文本框的偏转角度和坐标组,确定用于所述目标文本框的校正角度和校正方向,按照所述校正角度和所述校正方向旋转所述目标文本框以得到最终目标文本框;对所述最终目标文本框进行识别,以得到所述目标文本。
例如,在本公开至少一实施例提供的文字识别方法中,所述至少一个文本框包括N个文本框,N为大于2的正整数,根据所述至少一个文本框的偏转角度和坐标组,确定用于所述目标文本框的所述校正角度和所述校正方向包括:根据所述N个文本框对应的N个偏转角度,确定所述N个文本框的平均偏转角度;判断所述平均偏转角度是否大于第一角度阈值或小于第二角度阈值;响应于所述平均偏转角度大于所述第一角度阈值或小于所述第二角度阈值,确定用于所述目标文本框的校正角度为0度;或者,响应于所述平均偏转角度小于等于所述第一角度阈值且大于等于所述第二角度阈值,根据所述N个文本框对应的N个坐标组,确定分别对应于所述N个文本框的N个长宽比,根据所述N个长宽比确定用于所述目标文本框的所述校正方向,响应于所述校正方向,根据所述N个偏转角度,确定所述校正角度。
例如,在本公开至少一实施例提供的文字识别方法中,根据所述N个长宽比确定用于所述目标文本框的所述校正方向包括:根据所述N个长宽比,将所述N个文本框分为第一文本框子组和第二文本框子组,其中,所述第一文本框子组中的每个文本框的长宽比大于等于1,所述第二文本框子组中的每个文本框的长宽比小于1;根据所述第一文本框子组和所述第二文本框子组,确定第一文本框数量和第二文本框数量,其中,所述第一文本框数量为所述第一文本框子组中的文本框的数量,所述第二文本框数量为所述第二文本框子组中的文本框的数量;根据所述第一文本框数量和所述第二文本框数量,确定所述校正方向。
例如,在本公开至少一实施例提供的文字识别方法中,根据所述第一文本框数量和所述第二文本框数量,确定所述校正方向包括:响应于所述第一文本框数量和所述第二文本框数量满足第一条件,则确定所述校正方向为逆时针方向;或者,响应于所述第一文本框数量和所述第二文本框数量满足第二条件,则确定所述校正方向为顺时针方向,其中,所述第一条件为ra>rb+r0,所述第二条件为ra+r0<rb,ra为所述第一文本框数量,rb为所述第二文本框数量,r0为常数。
例如,在本公开至少一实施例提供的文字识别方法中,在响应于所述平均偏转角度小于等于所述第一角度阈值且大于等于所述第二角度阈值,所述文字识别方法还包括:响应于所述第一文本框数量和所述第二文本框数量不满足所述第一条件和所述第二条件,确定用于所述目标文本框的校正角度为0度。
例如,在本公开至少一实施例提供的文字识别方法中,r0为2。
例如,在本公开至少一实施例提供的文字识别方法中,响应于所述校正方向,根据所述N个偏转角度,确定所述校正角度包括:响应于所述校正方向,将所述N个偏转角度按照升序进行排序以得到第一偏转角度至第N个偏转角度,其中,所述N个偏转角度中的第P个偏转角度和第P+1个偏转角度之差大于10度,P为正整数且小于N;将所述N个偏转角度划分为第一偏转角度组、第二偏转角度组和第三偏转角度组,其中,所述第一偏转角度组中的偏转角度均为0度,所述第二偏转角度组包括第一偏转角度至所述第P个偏转角度,所述第三偏转角度组包括所述第P+1偏转角度至第N个偏转角度;根据所述第一偏转角度组、所述第二偏转角度组和所述第三偏转角度组,确定第一角度数量、第二角度数量和第三角度数量,其中,所述第一角度数量为所述第 一偏转角度组中的偏转角度的数量,所述第二角度数量为所述第二偏转角度组中的偏转角度的数量,所述第三角度数量为所述第三偏转角度组中的偏转角度的数量;根据所述第一角度数量、所述第二角度数量和所述第三角度数量,确定所述校正角度。
例如,在本公开至少一实施例提供的文字识别方法中,根据所述第一角度数量、所述第二角度数量和所述第三角度数量,确定所述校正角度包括:响应于所述第一角度数量满足第三条件,则确定所述校正角度为0度;或者响应于所述第一角度数量不满足所述第三条件,且所述第二角度数量和所述第三角度数量满足第四条件,则确定所述校正角度为第一角度值;或者响应于所述第一角度数量不满足所述第三条件,且所述第二角度数量和所述第三角度数量满足第五条件,则确定所述校正角度为第二角度值;或者响应于所述第一角度数量不满足所述第三条件且所述第二角度数量和所述第三角度数量不满足所述第四条件和所述第五条件,则确定所述校正角度为0度;其中,所述第三条件为s0>ss1,所述第四条件为s1>s2+ss2,所述第五条件为s1+ss2<s2,s0为所述第一角度数量,s1为所述第二角度数量,s2为所述第三角度数量,ss1为常数,ss2为常数,
所述第一角度值表示为:
Figure PCTCN2020073576-appb-000001
其中,1≤i≤P,ai表示所述第二偏转角度组中的所述第一偏转角度至所述第P个偏转角度中的第i个偏转角度,
所述第二角度值表示为:
Figure PCTCN2020073576-appb-000002
其中,P+1≤j≤N,aj表示所述第三偏转角度组中的所述第P+1偏转角度至所述第N个偏转角度中的第j个偏转角度。
例如,在本公开至少一实施例提供的文字识别方法中,ss1为5,ss2为2。
例如,在本公开至少一实施例提供的文字识别方法中,所述第一角度阈值为80度,所述第二角度阈值为10度。
例如,在本公开至少一实施例提供的文字识别方法中,所述最终目标文本框相对于所述基准方向的偏转角度大于所述第一角度阈值或者小于所述第二角度阈值。
例如,在本公开至少一实施例提供的文字识别方法中,所述至少一个文本框包括N个文本框,N为1或2,根据所述至少一个文本框的偏转角度和坐标组,确定用于所述目标文本框的所述校正角度和所述校正方向包括:根据所述目标文本框的偏转角度,确定用于所述目标文本框的所述校正角度;响应于所述校正角度,根据所述目标文本框的坐标组,确定所述目标文本框的长宽比;根据所述目标文本框的长宽比,确定用于所述目标文本框的所述校正方向。
例如,在本公开至少一实施例提供的文字识别方法中,根据所述目标文本框的长宽比,确定用于所述目标文本框的所述校正方向包括:响应于所述目标文本框的长宽比大于等于1,确定所述校正方向为逆时针方向;或者响应于所述目标文本框的长宽比小于1,确定所述校正方向为顺时针方向。
例如,在本公开至少一实施例提供的文字识别方法中,所述至少一个文本框为矩形框,所述至少一个文本框中的每个文本框的坐标组包括所述每个文本框的至少三个顶点的坐标。
例如,在本公开至少一实施例提供的文字识别方法中,所述至少一个文本框中的每个文本框的偏转角度大于等于0度且小于等于90度,
例如,在本公开至少一实施例提供的文字识别方法中,按照所述校正角度和所述校正方向旋转所述目标文本框以得到所述最终目标文本框包括:按照所述校正角度和所述校正方向旋转所述输入图像,以使得所述目标文本框旋转得到所述最终目标文本框;或者对所述目标文本框进行切割处理以得到切割后的目标文本框,按照所述校正角度和所述校正方向旋转所述切割后的目标文本框,以得到所述最终目标文本框。
例如,在本公开至少一实施例提供的文字识别方法中,对所述输入图像进行文本检测,以确定所述文本框组包括:对所述输入图像进行尺度变换处理,以得到多个中间输入图像,其中,所述多个中间输入图像包括所述输入图像,且所述多个中间输入图像的尺寸彼此不相同;对于所述多个中间输入图像中的每个中间输入图像,对所述每个中间输入图像进行文本检测,以得到所述每个中间输入图像对应的中间文本框组,从而得到所述多个中间输入图像对应的多个中间文本框组,其中,每个所述中间文本框组包括至少一个中间文本框;根据所述多个中间文本框组,确定所述文本框组。
例如,在本公开至少一实施例提供的文字识别方法中,所述至少一个中间文本框与所述至少一个文本框一一对应,每个所述中间文本框组包括第i中间 文本框,所述文本框组包括第i文本框,所述第i中间文本框与所述第i文本框对应,i大于等于1且小于等于每个所述中间文本框组中的中间文本框的数量,根据所述多个中间文本框组,确定所述文本框组包括:对于所述第i文本框,根据所述多个中间文本框组的多个第i中间文本框对应的坐标组,确定所述第i文本框的坐标组,从而确定所述文本框组。
例如,在本公开至少一实施例提供的文字识别方法中,对所述每个中间输入图像进行文本检测,以得到所述每个中间输入图像对应的中间文本框组包括:利用文本检测神经网络对所述每个中间输入图像进行文本检测,以确定所述每个中间输入图像对应的文本检测区域组;利用最小外接矩形算法对所述文本检测区域组进行处理,以确定所述中间文本框组,其中,所述文本检测区域组包括至少一个文本检测区域,所述至少一个文本检测区域与所述至少一个中间文本框一一对应,且每个所述中间文本框覆盖对应的文本检测区域。
例如,在本公开至少一实施例提供的文字识别方法中,所述文本检测神经网络包括第一卷积模块至第五卷积模块、第一下采样模块至第五下采样模块、全连接模块、第一上采样模块至第三上采样模块、第一降维模块至第四降维模块和分类器,利用所述文本检测神经网络对所述每个中间输入图像进行文本检测,以确定所述每个中间输入图像对应的所述文本检测区域组包括:使用所述第一卷积模块对所述每个中间输入图像进行卷积处理,以得到第一卷积特征图组;使用所述第一下采样模块对所述第一卷积特征图组进行下采样处理,以得到第一下采样特征图组;使用所述第二卷积模块对所述第一下采样特征图组进行卷积处理,以得到第二卷积特征图组;使用所述第二下采样模块对所述第二卷积特征图组进行下采样处理,以得到第二下采样特征图组;使用所述第三卷积模块对所述第二下采样特征图组进行卷积处理,以得到第三卷积特征图组;使用所述第三下采样模块对所述第三卷积特征图组进行下采样处理,以得到第三下采样特征图组,且使用所述第一降维模块对所述第三卷积特征图组进行降维处理,以得到第一降维特征图组;使用所述第四卷积模块对所述第三下采样特征图组进行卷积处理,以得到第四卷积特征图组;使用所述第四下采样模块对所述第四卷积特征图组进行下采样处理,以得到第四下采样特征图组,且使用所述第二降维模块对所述第四卷积特征图组进行降维处理,以得到第二降维特征图组;使用所述第五卷积模块对所述第四下采样特征图组进行卷积处理,以得到第五卷积特征图组;使用所述第五下采样模块对所述第五卷积特征图组 进行下采样处理,以得到第五下采样特征图组,且使用所述第三降维模块对所述第五卷积特征图组进行降维处理,以得到第三降维特征图组;使用所述全连接模块对所述第五下采样特征图组进行卷积处理,以得到第六卷积特征图组;使用所述第四降维模块对所述第六卷积特征图组进行降维处理,以得到第四降维特征图组;使用所述第一上采样模块对所述第四降维特征图组进行上采样处理,以得到第一上采样特征图组;对所述第一上采样特征图组和所述第三降维特征图组进行融合处理,以得到第一融合特征图组;使用所述第二上采样模块对所述第一融合特征图组进行上采样处理,以得到第二上采样特征图组;对所述第二上采样特征图组和所述第二降维特征图组进行融合处理,以得到第二融合特征图组;使用所述第三上采样模块对所述第二融合特征图组进行上采样处理,以得到第三上采样特征图组;对所述第三上采样特征图组和所述第一降维特征图组进行融合处理,以得到第三融合特征图组;使用所述分类器对所述第三融合特征图组进行分类处理,以得到文本分类预测图和连接分类预测图;根据所述连接分类预测图和所述文本分类预测图,以确定所述文本检测区域组。
例如,在本公开至少一实施例提供的文字识别方法中,所述第一卷积特征图组中的特征图的数量为8,所述第二卷积特征图组中的特征图的数量为16,所述第三卷积特征图组中的特征图的数量为32,所述第四卷积特征图组中的特征图的数量为64,所述第五卷积特征图组中的特征图的数量为128,所述第六卷积特征图组中的特征图的数量为256,所述第一降维特征图组中的特征图的数量为10,所述第二降维特征图组中的特征图的数量为10,所述第三降维特征图组中的特征图的数量为10,所述第四降维特征图组中的特征图的数量为10。
例如,在本公开至少一实施例提供的文字识别方法中,所述文本检测神经网络包括第一卷积模块至第五卷积模块、第一下采样模块至第五下采样模块、全连接模块、第一上采样模块至第三上采样模块、第一降维模块至第五降维模块和分类器,利用所述文本检测神经网络对所述每个中间输入图像进行文本检测,以确定所述每个中间输入图像对应的文本检测区域组包括:使用所述第一卷积模块对所述输入图像进行卷积处理,以得到第一卷积特征图组;使用所述第一下采样模块对所述第一卷积特征图组进行下采样处理,以得到第一下采样特征图组;使用所述第二卷积模块对所述第一下采样特征图组进行卷积处理,以得到第二卷积特征图组;使用所述第二下采样模块对所述第二卷积特征图组 进行下采样处理,以得到第二下采样特征图组,且使用所述第一降维模块对所述第二卷积特征图组进行降维处理,以得到第一降维特征图组;使用所述第三卷积模块对所述第二下采样特征图组进行卷积处理,以得到第三卷积特征图组;使用所述第三下采样模块对所述第三卷积特征图组进行下采样处理,以得到第三下采样特征图组,且使用所述第二降维模块对所述第三卷积特征图组进行降维处理,以得到第二降维特征图组;使用所述第四卷积模块对所述第三下采样特征图组进行卷积处理,以得到第四卷积特征图组;使用所述第四下采样模块对所述第四卷积特征图组进行下采样处理,以得到第四下采样特征图组,且使用所述第三降维模块对所述第四卷积特征图组进行降维处理,以得到第三降维特征图组;使用所述第五卷积模块对所述第四下采样特征图组进行卷积处理,以得到第五卷积特征图组;使用所述第五下采样模块对所述第五卷积特征图组进行下采样处理,以得到第五下采样特征图组,且使用所述第四降维模块对所述第五卷积特征图组进行降维处理,以得到第四降维特征图组;使用所述全连接模块对所述第五下采样特征图组进行卷积处理,以得到第六卷积特征图组;使用所述第五降维模块对所述第六卷积特征图组进行降维处理,以得到第五降维特征图组;对所述第四降维特征图组和所述第五降维特征图组进行融合处理,以得到第一融合特征图组;使用所述第一上采样模块对所述第一融合特征图组进行上采样处理,以得到第一上采样特征图组;对所述第一上采样特征图组和所述第三降维特征图组进行融合处理,以得到第二融合特征图组;使用所述第二上采样模块对所述第二融合特征图组进行上采样处理,以得到第二上采样特征图组;对所述第二上采样特征图组和所述第二降维特征图组进行融合处理,以得到第三融合特征图组;使用所述第三上采样模块对所述第三融合特征图组进行上采样处理,以得到第三上采样特征图组;对所述第三上采样特征图组和所述第一降维特征图组进行融合处理,以得到第四融合特征图组;使用所述分类器对所述第四融合特征图组进行分类处理,以得到文本分类预测图和连接分类预测图;根据所述连接分类预测图和所述文本分类预测图,以确定所述文本检测区域组。
例如,在本公开至少一实施例提供的文字识别方法中,所述第一卷积特征图组中的特征图的数量为64,所述第二卷积特征图组中的特征图的数量为128,所述第三卷积特征图组中的特征图的数量为256,所述第四卷积特征图组中的特征图的数量为512,所述第五卷积特征图组中的特征图的数量为512,所述 第六卷积特征图组中的特征图的数量为512,所述第一降维特征图组至所述第五降维特征图组每个中的特征图的数量为18。
例如,在本公开至少一实施例提供的文字识别方法中,在获取所述输入图像之前,所述文字识别方法还包括:训练待训练文本检测神经网络,以得到所述文本检测神经网络,训练待训练文本检测神经网络,以得到所述文本检测神经网络包括:获取训练输入图像和目标文本检测区域组;利用所述待训练文本检测神经网络对所述训练输入图像进行处理,以得到训练文本检测区域组;根据所述目标文本检测区域组和所述训练文本检测区域组,通过损失函数计算所述待训练文本检测神经网络的损失值;根据所述损失值对所述待训练文本检测神经网络的参数进行修正,在所述损失函数满足预定条件时,得到训练好的所述文本检测神经网络,在所述损失函数不满足所述预定条件时,继续输入所述训练输入图像和所述目标文本检测区域组以重复执行上述训练过程。
例如,在本公开至少一实施例提供的文字识别方法中,所述损失函数包括焦点损失函数。
例如,在本公开至少一实施例提供的文字识别方法中,从所述至少一个文本框中确定目标文本框包括:确定点译笔的笔尖的位置;基于所述笔尖的位置,在所述输入图像中标注出待检测区域;确定所述待检测区域分别与所述至少一个文本框之间的至少一个重叠区域;确定所述至少一个重叠区域中的最大重叠区域对应的文本框作为所述目标文本框。
例如,在本公开至少一实施例提供的文字识别方法中,对所述最终目标文本框进行识别,以得到所述目标文本包括:利用所述文本识别神经网络对所述最终目标文本框进行识别处理,以得到中间文本;对所述中间文本进行校验,以得到所述目标文本。
例如,在本公开至少一实施例提供的文字识别方法中,所述文本识别神经网络为多目标纠正注意网络。
例如,本公开至少一实施例提供的文字识别方法还包括:对所述目标文本进行翻译,以得到并输出所述目标文本的翻译结果。
本公开至少一实施例提供一种文字识别方法,包括:获取输入图像;利用文本检测神经网络对所述输入图像进行文本检测,以确定文本框组,其中,所述文本框组包括至少一个文本框;从所述至少一个文本框中确定目标文本框,其中,所述目标文本框包括目标文本;旋转所述目标文本框以得到最终目标文 本框;对所述最终目标文本框进行识别,以得到所述目标文本,其中,所述文本检测神经网络包括第一卷积模块至第五卷积模块和第一降维模块至第四降维模块,所述第一卷积模块中的每个卷积层中的卷积核的数量为8,所述第二卷积模块中的每个卷积层中的卷积核的数量为16,所述第三卷积模块中的每个卷积层中的卷积核的数量为32,所述第四卷积模块中的每个卷积层中的卷积核的数量为64,所述第五卷积模块中的每个卷积层中的卷积核的数量为128,所述第一降维模块中的每个卷积层中的卷积核的数量为10,所述第二降维模块中的每个卷积层中的卷积核的数量为10,所述第三降维模块中的每个卷积层中的卷积核的数量为10,所述第四降维模块中的每个卷积层中的卷积核的数量为10。
例如,在本公开至少一实施例提供的文字识别方法中,利用所述文本检测神经网络对所述输入图像进行文本检测,以确定文本框组,包括:对所述输入图像进行尺度变换处理,以得到多个中间输入图像,其中,所述多个中间输入图像包括所述输入图像,且所述多个中间输入图像的尺寸彼此不相同;对于所述多个中间输入图像中的每个中间输入图像,利用所述文本检测神经网络对所述每个中间输入图像进行文本检测,以得到所述每个中间输入图像对应的中间文本框组,从而得到所述多个中间输入图像对应的多个中间文本框组,其中,每个所述中间文本框组包括至少一个中间文本框;根据所述多个中间文本框组,确定所述文本框组。
例如,在本公开至少一实施例提供的文字识别方法中,利用所述文本检测神经网络对所述每个中间输入图像进行文本检测,以得到所述每个中间输入图像对应的中间文本框组,包括:利用所述文本检测神经网络对所述每个中间输入图像进行文本检测,以确定所述每个中间输入图像对应的文本检测区域组;利用最小外接矩形算法对所述文本检测区域组进行处理,以确定所述中间文本框组,其中,所述文本检测区域组包括至少一个文本检测区域,所述至少一个文本检测区域与所述至少一个中间文本框一一对应,且每个所述中间文本框覆盖对应的文本检测区域。
例如,在本公开至少一实施例提供的文字识别方法中,所述文本检测神经网络还包括第一下采样模块至第五下采样模块、全连接模块、第一上采样模块至第三上采样模块和分类器,利用所述文本检测神经网络对所述每个中间输入图像进行文本检测,以确定所述每个中间输入图像对应的所述文本检测区域组, 包括:使用所述第一卷积模块对所述每个中间输入图像进行卷积处理,以得到第一卷积特征图组;使用所述第一下采样模块对所述第一卷积特征图组进行下采样处理,以得到第一下采样特征图组;使用所述第二卷积模块对所述第一下采样特征图组进行卷积处理,以得到第二卷积特征图组;使用所述第二下采样模块对所述第二卷积特征图组进行下采样处理,以得到第二下采样特征图组;使用所述第三卷积模块对所述第二下采样特征图组进行卷积处理,以得到第三卷积特征图组;使用所述第三下采样模块对所述第三卷积特征图组进行下采样处理,以得到第三下采样特征图组,且使用所述第一降维模块对所述第三卷积特征图组进行降维处理,以得到第一降维特征图组;使用所述第四卷积模块对所述第三下采样特征图组进行卷积处理,以得到第四卷积特征图组;使用所述第四下采样模块对所述第四卷积特征图组进行下采样处理,以得到第四下采样特征图组,且使用所述第二降维模块对所述第四卷积特征图组进行降维处理,以得到第二降维特征图组;使用所述第五卷积模块对所述第四下采样特征图组进行卷积处理,以得到第五卷积特征图组;使用所述第五下采样模块对所述第五卷积特征图组进行下采样处理,以得到第五下采样特征图组,且使用所述第三降维模块对所述第五卷积特征图组进行降维处理,以得到第三降维特征图组;使用所述全连接模块对所述第五下采样特征图组进行卷积处理,以得到第六卷积特征图组;使用所述第四降维模块对所述第六卷积特征图组进行降维处理,以得到第四降维特征图组;使用所述第一上采样模块对所述第四降维特征图组进行上采样处理,以得到第一上采样特征图组;对所述第一上采样特征图组和所述第三降维特征图组进行融合处理,以得到第一融合特征图组;使用所述第二上采样模块对所述第一融合特征图组进行上采样处理,以得到第二上采样特征图组;对所述第二上采样特征图组和所述第二降维特征图组进行融合处理,以得到第二融合特征图组;使用所述第三上采样模块对所述第二融合特征图组进行上采样处理,以得到第三上采样特征图组;对所述第三上采样特征图组和所述第一降维特征图组进行融合处理,以得到第三融合特征图组;使用所述分类器对所述第三融合特征图组进行分类处理,以得到文本分类预测图和连接分类预测图;根据所述连接分类预测图和所述文本分类预测图,以确定所述文本检测区域组。
本公开至少一实施例提供一种文字识别装置,包括:图像采集装置,用于获取输入图像;存储器,用于存储所述输入图像以及计算机可读指令;处理器, 用于读取所述输入图像,并运行所述计算机可读指令,所述计算机可读指令被所述处理器运行时执行根据上述任一实施例所述的文字识别方法。
例如,本公开至少一实施例提供的文字识别装置还包括:点译笔,其中,所述图像采集装置设置在所述点译笔上,所述点译笔用于选择所述目标文本。
本公开至少一实施例提供一种存储介质,非暂时性地存储计算机可读指令,当所述计算机可读指令由计算机执行时可以执行根据上述任一实施例所述的文字识别方法。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本公开的一些实施例,而非对本公开的限制。
图1为本公开至少一实施例提供的一种文字识别方法的示意性流程图;
图2A-2E为本公开至少一个实施例提供的多个中间输入图像的示意图;
图3为本公开至少一个实施例提供的一种文本检测神经网络的示意图;
图4为本公开至少一个实施例提供的一种特征图中一个像素和该像素的相邻像素的示意图;
图5为一种文本检测神经网络的示意图;
图6为本公开另一实施例提供的一种特征图中一个像素和该像素的相邻像素的示意图;
图7A为本公开至少一个实施例提供的一种输入图像中的文本框组的示意图;
图7B为本公开至少一个实施例提供的另一种输入图像中的文本框组的示意图;
图8A为本公开另一实施例提供的一种输入图像中的文本框组的示意图;
图8B为本公开另一实施例提供的另一种输入图像中的文本框组的示意图;
图9为本公开至少一个实施例提供的文本框位于坐标系中的示意图;
图10为本公开至少一个实施例提供的一种交叉熵损失函数和焦点损失函数的损失下降曲线图;
图11A为本公开至少一个实施例提供的一种基于交叉熵损失函数的文本检测神经网络的模型结果的示意图;
图11B为本公开至少一个实施例提供的一种基于焦点损失函数的文本检测神经网络的模型结果的示意图;
图12为本公开至少一个实施例提供的一种文字识别装置的示意性框图;以及
图13为本公开至少一个实施例提供的一种存储介质的示意图。
具体实施方式
为了使得本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外定义,本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。为了保持本公开实施例的以下说明清楚且简明,本公开省略了部分已知功能和已知部件的详细说明。
点译笔可以用于查询生词。在查询时,将点译笔的笔尖对准生词下方,轻轻一点,即可迅速查询并翻译生词。相较于其他查询生词的方式,点译笔具有使用效率较高、笔身轻巧易携带等特点。
点译笔可以基于光学字符识别(OCR,Optical Character Recognition)技术进行字符识别,以实现查询并翻译文本,例如,外文单词等。目前,在OCR领域中,各种文本检测技术不断涌现,性能良好的文本检测技术大多都是基于深度学习算法实现的。例如,文本检测技术可以包括像素连接(PixelLink)算法,像素连接算法是基于图像分割的方式实现文本框的检测,像素连接算法具有较好的单词检测效果,但是像素连接算法的计算量较大,对应的神经网络模型较 难迅速收敛,对于图像中文本尺度变化的检测效果较差,不能直接用于点译笔的应用场景中。
本公开至少一实施例提供一种文字识别方法、文字识别装置和存储介质,该文字识别方法可以对选择出的包含待译目标文本的目标文本框进行旋转,从而提高文本识别的准确率。文字识别方法应用于点译技术中,从而能够点击待译文本并直接显示翻译结果,取代传统按键式电子词典的操作方式,在提高文本识别的准确率的情况下,增加了文本查询的便利性,极大地提高了学习效率,增加阅读量。需要说明的是,点译技术可以基于点译笔实现,然而本公开不限于此,实现点译技术的产品也可以不是笔的形态,而是其他合适的形态。
下面结合附图对本公开的实施例进行详细说明,但是本公开并不限于这些具体的实施例。
图1为本公开至少一实施例提供的一种文字识别方法的示意性流程图。
该文字识别方法可以应用于点译技术,例如,在一些实施例中,本公开提供的文字识别方法可以应用于点译笔。本实施例对于点译笔的具体构成和形态等不作限制。本公开提供的文字识别方法也可以应用于其他合适的电子产品中。下面本公开以文字识别方法应用于点译笔为例详细描述本公开。
在一些实施方式中,文字识别方法包括:获取输入图像;对输入图像进行文本检测,以确定文本框组,其中,文本框组包括至少一个文本框;从至少一个文本框中确定目标文本框,其中,目标文本框包括目标文本;对所述目标文本框进行识别,以得到目标文本。
在一些实施方式中,从至少一个文本框中确定目标文本框后对所述目标文本框进行校正以更快速、准确的进行目标文本识别。
例如,如图1所示,该文字识别方法包括,但不限于,以下步骤:
S100:获取输入图像;
S101:对输入图像进行文本检测,以确定文本框组,其中,文本框组包括至少一个文本框;
S102:从至少一个文本框中确定目标文本框,其中,目标文本框包括目标文本;
S103:获取至少一个文本框的坐标组和相对于基准方向的偏转角度,根据至少一个文本框的偏转角度和坐标组,确定用于目标文本框的校正角度和校正方向,按照校正角度和校正方向旋转目标文本框以得到最终目标文本框;
S104:对最终目标文本框进行识别,以得到目标文本。
例如,在步骤S100中,输入图像可以为通过图像采集装置拍摄的图像。例如,点译笔可以包括摄像头,图像采集装置即可为点译笔上的摄像头,也就是说,输入图像由设置在点译笔上的摄像头采集得到。
例如,输入图像可以为灰度图像,也可以为彩色图像。输入图像的形状可以为矩形、菱形、圆形等,本公开对此不作具体限制。在本公开的实施例中,以输入图像为矩形为例进行说明。
例如,输入图像可以为图像采集装置直接采集到的原始图像,也可以是对原始图像进行预处理之后获得的图像。例如,为了避免输入图像的数据质量、数据不均衡等对于文字识别的影响,在对输入图像进行文本检测之前,本公开实施例提供的文字识别方法还可以包括对输入图像进行预处理的操作。预处理可以消除输入图像中的无关信息或噪声信息,以便于更好地对输入图像进行处理。预处理例如可以包括对输入图像进行缩放、剪裁、伽玛(Gamma)校正、图像增强或降噪滤波等处理。
例如,输入图像包括至少一个文本,至少一个文本包括目标文本。需要说明的是,目标文本为用户希望检测的文本。输入图像是指以可视化方式呈现文本的形式,例如文本的图片、视频等。
例如,目标文本可以包括:英语、法语、德语、西班牙语等语言的一个单词,或者中文、日语、韩语等语言的一个字或词。
例如,文本框组中的所有文本框均为矩形框、菱形框等。在本公开的实施例中,以文本框为矩形框为例进行说明,然而本公开不限于此。
图2A-2E为本公开至少一个实施例提供的多个中间输入图像的示意图。
例如,在步骤S101中,文本框组中的每个文本框内包括至少一个文本。在一些实施例中,每个文本框内包括一个文本,例如,一个文本可以为一个英文单词(例如,“order”等)、一个中文词(例如,“网络”等)、一个中文汉字(例如,“高”等)等。需要说明的是,在一些实施例中,每个文本框内也可能包括多个文本。
例如,步骤S101可以包括:
S1011:对输入图像进行尺度变换处理,以得到多个中间输入图像;
S1012:对于多个中间输入图像中的每个中间输入图像,对每个中间输入图像进行文本检测,以得到每个中间输入图像对应的中间文本框组,从而得到 多个中间输入图像对应的多个中间文本框组,其中,每个中间文本框组包括至少一个中间文本框;
S1013:根据多个中间文本框组,确定文本框组。
例如,在步骤S1011中,针对像素连接算法不适应输入图像中文字尺度变化的情况,可以将输入图像进行不同尺度的变换,以构建图像金字塔(即多个中间输入图像),以使得各种文字尺度均能够被满足,同时提高文本检测的准确率。
例如,多个中间输入图像可以包括输入图像,且多个中间输入图像的尺寸彼此不相同。例如,在一些实施例中,输入图像的尺寸为W*H,即输入图像的宽为W,输入图像的高为H,对输入图像进行尺度变换处理,以分别将输入图像的尺寸调整为1.5*(W*H)、0.8*(W*H)、0.6*(W*H)、0.4*(W*H),以得到多个中间输入图像。
例如,多个中间输入图像可以包括第一中间输入图像、第二中间输入图像、第三中间输入图像、第四中间输入图像和第五中间输入图像,图2A示出了第一中间输入图像,且第一中间输入图像的尺寸为0.4*(W*H),图2B示出了第二中间输入图像,且第二中间输入图像的尺寸为0.6*(W*H),图2C示出了第三中间输入图像,且第三中间输入图像的尺寸为0.8*(W*H),图2D示出了第四中间输入图像,第四中间输入图像的尺寸为(W*H),也就是说,第四中间输入图像即为输入图像,图2D示出的图像也为输入图像,图2E示出了第五中间输入图像,且第五中间输入图像的尺寸为1.5*(W*H)。需要说明的是,多个中间输入图像的尺寸不限于上面描述的尺寸,可以根据实际情况任意设置。此外,多个中间输入图像也可以不包括输入图像。
例如,在步骤S1012中,分别对多个中间输入图像进行文本检测,从而得到与多个中间输入图像一一对应的多个中间文本框组。每个中间输入图像的文本检测方式相同,均为基于像素连接算法的文本检测方式。
例如,各个中间文本框组的中间文本框的数量可以均相同,且各个中间文本框组的中间文本框内包含的各个文本组也相同。“文本组”表示中间文本框组中的所有中间文本框包含的文本的集合。在图2A-图2E所示的中间输入图像中,第一中间输入图像对应的中间文本框组中的中间文本框的数量可以为8,第二中间输入图像对应的中间文本框组中的中间文本框的数量可以为8,第三中间输入图像对应的中间文本框组中的中间文本框的数量可以为8,第四中间 输入图像对应的中间文本框组中的中间文本框的数量可以为8,第五中间输入图像对应的中间文本框组中的中间文本框的数量可以为8。以第一中间输入图像和第五中间输入图像为例,第一中间输入图像对应的中间文本框组的中间文本框内包含的文本组包括文本:“ur”、“of”、“French”、“Spring’s”、“studio”、“to”、“view”和“desig”;第五中间输入图像对应的中间文本框组的中间文本框内包含的文本组也包括文本:“ur”、“of”、“French”、“Spring’s”、“studio”、“to”、“view”和“desig”。而且,第一中间输入图像对应的包括“ur”的中间文本框和第五中间输入图像对应的包括“ur”的中间文本框彼此对应,第一中间输入图像对应的包括“French”的中间文本框和第五中间输入图像对应的包括“French的中间文本框彼此对应,以此类推。
需要理解的是,在实际应用中,由于多个中间输入图像的尺寸不相同,对多个中间输入图像进行文本检测后得到的多个中间文本框组的中间文本框的数量也可能不相同,各个中间文本框组的中间文本框内包含的各个文本组也可能不相同。
例如,在步骤S1012中,对每个中间输入图像进行文本检测,以得到每个中间输入图像对应的中间文本框组包括:利用文本检测神经网络对每个中间输入图像进行文本检测,以确定每个中间输入图像对应的文本检测区域组;利用最小外接矩形算法对文本检测区域组进行处理,以确定中间文本框组。
例如,文本检测神经网络可以采用像素连接(PixelLink)算法进行文本检测。
例如,文本检测区域组包括至少一个文本检测区域,至少一个文本检测区域与至少一个中间文本框一一对应,且每个中间文本框包括对应的文本检测区域,也就是说,中间文本框覆盖对应的文本检测区域。例如,在得到文本检测区域组之后,首先可以使用基于OpenCV的轮廓检测(findContours)函数对文本检测区域组进行轮廓检测,以得到文本检测区域组中的所有文本检测区域的轮廓;然后,使用基于OpenCV的最小外接矩形(minAreaRect)函数和并查集方法对所有文本检测区域的轮廓进行处理,获得所有文本检测区域的轮廓的最小外接矩形,最终得到中间文本框组中的所有中间文本框。
图3为本公开至少一个实施例提供的一种文本检测神经网络的示意图。
例如,文本检测神经网络可以采用VGG16网络作为特征提取器,且将VGG16网络中的全连接层替换为卷积层。在PixelLink算法中,特征融合和像 素预测的方式基于FPN(feature pyramid network,金字塔特征网络)思想,即文本检测神经网络中的卷积层的尺寸依次减半,但卷积层中的卷积核的数量依次增倍。
例如,如图3所示,在一些实施例中,文本检测神经网络可以包括第一卷积模块301至第五卷积模块305、第一下采样模块306至第五下采样模块310、全连接模块311、第一上采样模块312至第三上采样模块314、第一降维模块315至第四降维模块318和分类器319。
例如,第一卷积模块301可以包括两个卷积层conv1_1和conv1_2,第一卷积模块301中的每个卷积层包括8个卷积核;第二卷积模块302可以包括两个卷积层conv2_1和conv2_2,第二卷积模块302中的每个卷积层包括16个卷积核;第三卷积模块303可以包括三个卷积层conv3_1至conv3_3,第三卷积模块303中的每个卷积层包括32个卷积核;第四卷积模块304可以包括三个卷积层conv4_1至conv4_3,第四卷积模块304中的每个卷积层包括64个卷积核;第五卷积模块305可以包括三个卷积层conv5_1至conv5_3,第五卷积模块305中的每个卷积层包括128个卷积核。需要说明的是,每个卷积层包括激活函数,例如,激活函数可以为ReLU激活函数。
例如,第一下采样模块306至第五下采样模块310中的每个均可以包括下采样层。一方面,下采样层可以用于缩减输入图像的规模,简化计算的复杂度,在一定程度上减小过拟合的现象;另一方面,下采样层也可以进行特征压缩,提取输入图像的主要特征。下采样层能够减少特征图的尺寸,但不改变特征图的数量,例如,下采样处理用于减小特征图的尺寸,从而减少特征图的数据量。例如,在一些实施例中,下采样层可以采用最大池化(max pooling)进行下采样处理,所有下采样层的下采样因子均为1/2×2,但本公开不限于此,例如,在另一些实施例中,下采样层也可以采用平均值合并(average pooling)、跨度卷积(strided convolution)、欠采样(decimation,例如选择固定的像素)、解复用输出(demuxout,将输入图像拆分为多个更小的图像)等下采样方法实现下采样处理。
例如,全连接模块311包括两个全连接层fc6和fc7。全连接层fc6为卷积层且包括256个卷积核,全连接层fc7也为卷积层且包括256个卷积核。
例如,第一上采样模块312至第三上采样模块314中的每个均可以包括上采样层,上采样层用于进行上采样处理,所有上采样层的上采样因子均可以为 2×2。例如,上采样处理用于增大特征图的尺寸,从而增加特征图的数据量。例如,上采样层可以采用跨度转置卷积(strided transposed convolution)、插值算法等上采样方法实现上采样处理。插值算法例如可以包括内插值、双线性插值、两次立方插值(Bicubic Interprolation)等算法。
例如,第一降维模块315至第四降维模块318的每个降维模块可以包括1*1卷积核,例如,第一降维模块315可以包括10个1*1卷积核,第二降维模块316可以包括10个1*1卷积核,第三降维模块317可以包括10个1*1卷积核,第四降维模块318可以包括10个1*1卷积核。
例如,分类器319可以包括两个softmax分类器,分别为第一softmax分类器和第二softmax分类器。第一softmax分类器用于对每个像素是文本或非文本(正或负)进行分类预测,第二softmax分类器对每个像素的四个领域的像素是否存在连接(link)进行分类预测。
需要说明的是,在本公开中,卷积层、下采样层和上采样层等这些层每个都指代对应的处理操作,即卷积处理、下采样处理、上采样处理等,以下不再重复说明。
例如,利用文本检测神经网络对每个中间输入图像进行文本检测,以确定每个中间输入图像对应的文本检测区域组包括:使用第一卷积模块对每个中间输入图像进行卷积处理,以得到第一卷积特征图组;使用第一下采样模块对第一卷积特征图组进行下采样处理,以得到第一下采样特征图组;使用第二卷积模块对第一下采样特征图组进行卷积处理,以得到第二卷积特征图组;使用第二下采样模块对第二卷积特征图组进行下采样处理,以得到第二下采样特征图组;使用第三卷积模块对第二下采样特征图组进行卷积处理,以得到第三卷积特征图组;使用第三下采样模块对第三卷积特征图组进行下采样处理,以得到第三下采样特征图组,且使用第一降维模块对第三卷积特征图组进行降维处理,以得到第一降维特征图组;使用第四卷积模块对第三下采样特征图组进行卷积处理,以得到第四卷积特征图组;使用第四下采样模块对所述第四卷积特征图组进行下采样处理,以得到第四下采样特征图组,且使用第二降维模块对第四卷积特征图组进行降维处理,以得到第二降维特征图组;使用第五卷积模块对第四下采样特征图组进行卷积处理,以得到第五卷积特征图组;使用第五下采样模块对第五卷积特征图组进行下采样处理,以得到第五下采样特征图组,且使用第三降维模块对第五卷积特征图组进行降维处理,以得到第三降维特征图 组;使用全连接模块对第五下采样特征图组进行卷积处理,以得到第六卷积特征图组;使用第四降维模块对第六卷积特征图组进行降维处理,以得到第四降维特征图组;使用第一上采样模块对第四降维特征图组进行上采样处理,以得到第一上采样特征图组;对第一上采样特征图组和第三降维特征图组进行融合处理,以得到第一融合特征图组;使用第二上采样模块对第一融合特征图组进行上采样处理,以得到第二上采样特征图组;对第二上采样特征图组和第二降维特征图组进行融合处理,以得到第二融合特征图组;使用第三上采样模块对第二融合特征图组进行上采样处理,以得到第三上采样特征图组;对第三上采样特征图组和第一降维特征图组进行融合处理,以得到第三融合特征图组;使用分类器对所述第三融合特征图组进行分类处理,以得到文本分类预测图和连接分类预测图;根据连接分类预测图和文本分类预测图,以确定文本检测区域组。
例如,如图3所示,在一些实施例中,每个中间输入图像的尺寸可以为512*512,通道数量为3,3个通道分别为红色通道、蓝色通道和绿色通道。
例如,如图3所示,第一卷积特征图组CN1中的特征图的数量为8,且第一卷积特征图组CN1中的每个特征图的尺寸可以为512*512;第二卷积特征图组CN2中的特征图的数量为16,且第二卷积特征图组CN2中的每个特征图的尺寸可以为256*256;第三卷积特征图组CN3中的特征图的数量为32,且第三卷积特征图组CN3中的每个特征图的尺寸可以为128*128;第四卷积特征图组CN4中的特征图的数量为64,且第四卷积特征图组CN4中的每个特征图的尺寸可以为64*64;第五卷积特征图组CN5中的特征图的数量为128,且第五卷积特征图组CN5中的每个特征图的尺寸可以为32*32;第六卷积特征图组CN6中的特征图的数量为256,且第六卷积特征图组CN6中的每个特征图的尺寸可以为16*16。
例如,第三卷积特征图组CN3中的特征图的尺寸为中间输入图像的尺寸的1/(4*4),第四卷积特征图组CN4中的特征图的尺寸为中间输入图像的尺寸的1/(8*8),第五卷积特征图组CN5中的特征图的尺寸为中间输入图像的尺寸的1/(16*16)。
例如,第一卷积特征图组CN1为第一下采样模块306的输入,第一下采样模块306对第一卷积特征图组CN1进行下采样处理后得到第一下采样特征图组DP1,第一下采样特征图组DP1中的特征图的数量为8,且第一下采样特 征图组DP1中的每个特征图的尺寸为256*256。第一下采样特征图组DP1为第二卷积模块302的输入。
例如,第二卷积特征图组CN2为第二下采样模块307的输入,第二下采样模块307对第二卷积特征图组CN2进行下采样处理后得到第二下采样特征图组DP2,第二下采样特征图组DP2中的特征图的数量为16,且第二下采样特征图组DP2中的每个特征图的尺寸为128*128。第二下采样特征图组DP2为第三卷积模块303的输入。
例如,第三卷积特征图组CN3为第三下采样模块308的输入,第三下采样模块308对第三卷积特征图组CN3进行下采样处理后得到第三下采样特征图组DP3,第三下采样特征图组DP3中的特征图的数量为32,且第三下采样特征图组DP3中的每个特征图的尺寸为64*64。第三下采样特征图组DP3为第四卷积模块304的输入。
例如,第四卷积特征图组CN4为第四下采样模块309的输入,第四下采样模块309对第四卷积特征图组CN4进行下采样处理后得到第四下采样特征图组DP4,第四下采样特征图组DP4中的特征图的数量为64,且第四下采样特征图组DP4中的每个特征图的尺寸为32*32。第四下采样特征图组DP4为第五卷积模块305的输入。
例如,第五卷积特征图组CN5为第五下采样模块310的输入,第五下采样模块310对第五卷积特征图组CN5进行下采样处理后得到第五下采样特征图组DP5,第五下采样特征图组DP5中的特征图的数量为128,且第五下采样特征图组DP5中的每个特征图的尺寸为16*16。第五下采样特征图组DP5为全连接模块311的输入。
例如,全连接模块311对第五下采样特征图组DP5进行卷积处理后得到第六卷积特征图组CN6,第六卷积特征图组CN6中的特征图的数量为256,且第六卷积特征图组CN6中的每个特征图的尺寸为16*16。
例如,第三卷积特征图组CN3还为第一降维模块315的输入,第一降维模块315对第三卷积特征图组CN3进行降维处理后得到第一降维特征图组DR1,第一降维特征图组DR1中的特征图的数量为10,且第一降维特征图组DR1中的每个特征图的尺寸为128*128。
例如,第四卷积特征图组CN4还为第二降维模块316的输入,第二降维模块316对第四卷积特征图组CN4进行降维处理后得到第二降维特征图组 DR2,第二降维特征图组DR2中的特征图的数量为10,且第二降维特征图组DR2中的每个特征图的尺寸为64*64。
例如,第五卷积特征图组CN5还为第三降维模块317的输入,第三降维模块317对第五卷积特征图组CN5进行降维处理后得到第三降维特征图组DR3,第三降维特征图组DR3中的特征图的数量为10,且第三降维特征图组DR3中的每个特征图的尺寸为32*32。
例如,第六卷积特征图组CN6还为第四降维模块318的输入,第四降维模块318对第六卷积特征图组CN6进行降维处理后得到第四降维特征图组DR4,第四降维特征图组DR4中的特征图的数量为10,且第四降维特征图组DR4中的每个特征图的尺寸为16*16。
例如,第四降维特征图组DR4为第一上采样模块312的输入,第一上采样模块312对第四降维特征图组DR4进行上采样处理,以得到第一上采样特征图组UP1,第一上采样特征图组UP1中的特征图的数量为10,且第一上采样特征图组UP1中的每个特征图的尺寸为32*32。然后,第一上采样特征图组UP1和第三降维特征图组DR3进行融合处理,以得到第一融合特征图组FU1。第一融合特征图组FU1中的特征图的数量为10,且第一融合特征图组FU1中的每个特征图的尺寸为32*32。
例如,第一融合特征图组FU1为第二上采样模块313的输入,第二上采样模块313对第一融合特征图组FU1进行上采样处理,以得到第二上采样特征图组UP2,第二上采样特征图组UP2中的特征图的数量为10,且第二上采样特征图组UP2中的每个特征图的尺寸为64*64。然后,对第二上采样特征图组UP2和第二降维特征图组DR2进行融合处理,以得到第二融合特征图组FU2。第二融合特征图组FU2中的特征图的数量为10,且第二融合特征图组FU2中的每个特征图的尺寸为64*64。
例如,第二融合特征图组FU2为第三上采样模块314的输入,第三上采样模块314对第二融合特征图组FU2进行上采样处理,以得到第三上采样特征图组UP3,第三上采样特征图组UP3中的特征图的数量为10,且第三上采样特征图组UP3中的每个特征图的尺寸为128*128。然后,对第三上采样特征图组UP3和第一降维特征图组DR1进行融合处理,以得到第三融合特征图组FU3。第三融合特征图组FU3中的特征图的数量为10,且第三融合特征图组FU3中的每个特征图的尺寸为128*128。
需要说明的是,在本公开的实施例中,融合处理可以包括求和处理,例如,“融合处理”可以表示将相应的特性图中的对应像素的值进行相加,以得到新的特征图。例如,对于第一上采样特征图组UP1和第三降维特征图组DR3,“融合处理”表示将第一上采样特征图组UP1的一个特征图中的像素和第三降维特征图组DR3中与该特征图对应的特征图的对应像素的值进行相加,以得到新的特征图。“融合处理”不改变特征图的数量和尺寸。
图4为本公开至少一个实施例提供的一种特征图中一个像素和该像素的相邻像素的示意图。
例如,分类器319对第三融合特征图组FU3进行分类处理,以得到文本分类预测图和连接分类预测图。例如,文本分类预测图包括2个特征图,连接分类预测图包括8个特征图,需要说明的是,文本分类预测图和连接分类预测图中的每个特征图中的像素的值均大于等于0且小于等于1,且表示文本预测概率或连接预测概率。文本分类预测图中的特征图表示每个像素是否为文本的概率图,连接分类预测图中的特征图表示每个像素与该像素的四个邻域的相邻像素是否连接的概率图。
例如,文本分类预测图中的2个特征图包括文本特征图和非文本特征图,文本特征图表示中间输入图像中的各个像素属于文本的预测概率,非文本特征图表示中间输入图像中的各个像素属于非文本的预测概率,该两个特征图的对应的像素点的值相加为1。如图4所示,对于像素PX1,在文本特征图中该像素PX1的值为0.75,即表示该像素PX1属于文本的预测概率为0.75,则在非文本特征图中该像素PX1的值为0.25,即表示该像素PX1不属于文本的预测概率为0.25。例如,在一些实施例中,可以设置类型概率阈值,例如,为0.7,当像素的属于文本的预测概率大于等于类型概率阈值,则表示该像素属于文本,由此可知,当像素PX1属于文本的预测概率为0.75,则该像素PX1属于文本,即该像素PX1属于正像素(pixel positive)。需要说明的是,若该像素PX1不属于文本,即该像素PX1属于负像素(pixel negative)。
例如,如图4所示,在方向R1上,像素PX4和像素PX5与像素PX1直接相邻,在方向C1上,像素PX2和像素PX3与像素PX1直接相邻,也就是说,像素PX2至像素PX5为像素PX1的四个邻域的相邻像素,且分别位于像素PX1的上方、下方、右方、左方。在一些实施例中,每个特征图中的像素阵列排布为多行多列,方向R1可以为像素的行方向,方向C1可以为像素的列 方向。
例如,连接分类预测图中的8个特征图可以包括第一分类特征图、第二分类特征图、第三分类特征图、第四分类特征图、第五分类特征图、第六分类特征图、第七分类特征图、第八分类特征图。如图4所示,对于像素PX1,第一分类特征图表示从像素PX1指向像素PX2方向的连接预测概率,第二分类特征图表示从像素PX1指向像素PX2方向的不连接预测概率;第三分类特征图表示从像素PX1指向像素PX3方向的连接预测概率,第四分类特征图表示从像素PX1指向像素PX3方向的不连接预测概率;第五分类特征图表示从像素PX1指向像素PX4方向的连接预测概率,第六分类特征图表示从像素PX1指向像素PX4方向的不连接预测概率;第七分类特征图表示从像素PX1指向像素PX5方向的连接预测概率,第八分类特征图表示从像素PX1指向像素PX5方向的不连接预测概率。以判断像素PX1是否与像素PX2连接为例,像素PX1与像素PX2之间的连接由像素PX1与像素PX2决定,若像素PX1与像素PX2均为正像素,则像素PX1与像素PX2之间的连接为正连接(positive link);若像素PX1与像素PX2其中之一为正像素,则像素PX1与像素PX2之间的连接为正连接;若像素PX1与像素PX2均为负像素,则像素PX1与像素PX2之间的连接为负连接(negative link)。
例如,如图4所示,对于像素PX1,在第一分类特征图中该像素PX1的值为0.8,即表示该像素PX1和像素PX2的连接预测概率为0.8;在第二分类特征图中该像素PX1的值为0.2,即表示该像素PX1和像素PX2的不连接预测概率为0.2;在第三分类特征图中该像素PX1的值为0.6,即表示该像素PX1和像素PX3的连接预测概率为0.6,在第四分类特征图中该像素PX1的值为0.4,即表示该像素PX1和像素PX3的不连接预测概率为0.4,以此类推。例如,在一些实施例中,可以设置分类概率阈值,例如,为0.7,当像素的连接预测概率大于等于分类概率阈值,则表示该像素与相邻的像素可以连接。例如,在上述示例中,第一分类特征图中该像素PX1的值为0.8,即该像素PX1和像素PX2的连接预测概率(0.8)大于分类概率阈值(0.7),由此,在从像素PX1指向像素PX2方向的方向上,像素PX1和像素PX2之间的连接为正连接,且连接预测概率为0.8;第三分类特征图中该像素PX1的值为0.6,即该像素PX1和像素PX3的连接预测概率(0.6)小于分类概率阈值(0.7),由此,在从像素PX1指向像素PX3方向的方向上,像素PX1和像素PX3之间的连接为负连接。
需要说明的是,上述类型概率阈值和分类概率阈值仅仅是示意性的,类型概率阈值和分类概率阈值可以根据实际应用需求设置。
例如,根据分类预测图和文本分类预测图,可以采用并查集的方式确定文本检测区域组。例如,每个中间输入图像经过图3所示的文本检测神经网络得到每个像素的文本/非文本(正/负)的分类预测概率,以及每个像素和该像素的四个邻域方向的相邻像素是否存在连接(link)的连接预测概率。通过设定类型概率阈值和分类概率阈值分别对文本预测结果和连接预测结果进行过滤,可以得到正像素集合和正连接集合,然后根据正连接将正像素进行连接,以将正像素分组在一起,例如,可以利用并查集的方法产生正像素的连通域(Connected Components)集合,为了防止噪声的影响,可以对连通域集合进行去噪处理,即在连通域集合中将短边小于10个像素或者面积小于300个像素的连通域进行去除。执行去噪处理后的连通域集合中的连通域就表示检测到的文本检测区域。
图5为一种文本检测神经网络的示意图。
例如,如图5所示,在另一些实施例中,文本检测神经网络包括第一卷积模块501至第五卷积模块505、第一下采样模块506至第五下采样模块510、全连接模块511、第一上采样模块512至第三上采样模块514、第一降维模块515至第五降维模块519和分类器520。
例如,第一卷积模块501可以包括两个卷积层conv51_1和conv51_2,第一卷积模块501中的每个卷积层包括64个卷积核;第二卷积模块502可以包括两个卷积层conv52_1和conv52_2,第二卷积模块502中的每个卷积层包括128个卷积核;第三卷积模块503可以包括三个卷积层conv53_1至conv53_3,第三卷积模块503中的每个卷积层包括256个卷积核;第四卷积模块504可以包括三个卷积层conv54_1至conv54_3,第四卷积模块304中的每个卷积层包括512个卷积核;第五卷积模块505可以包括三个卷积层conv55_1至conv55_3,第五卷积模块505中的每个卷积层包括512个卷积核。需要说明的是,每个卷积层包括激活函数,例如,激活函数可以为ReLU激活函数。
例如,第一下采样模块506至第五下采样模块510中的每个均可以包括下采样层。例如,在一些实施例中,下采样层可以采用最大池化(max pooling)进行下采样处理。第一下采样模块506至第四下采样模块509中的下采样层的下采样因子均为1/(2×2),第五下采样模块510中的下采样层的下采样因子为 1,也就是说,利用第五下采样模块510中的下采样层对特征图进行处理后,特征图的尺寸不变。
例如,全连接模块511包括两个全连接层fc56和fc57。全连接层fc56为卷积层且包括512个卷积核,全连接层fc57也为卷积层且包括512个卷积核。
例如,第一上采样模块512至第三上采样模块514中的每个均可以包括上采样层,上采样层用于进行上采样处理,每个上采样层的上采样因子可以为2×2。
例如,第一降维模块515至第五降维模块519的每个降维模块可以包括1*1卷积核,例如,第一降维模块515可以包括18个1*1卷积核,第二降维模块516可以包括18个1*1卷积核,第三降维模块517可以包括18个1*1卷积核,第四降维模块518可以包括18个1*1卷积核,第五降维模块519可以包括18个1*1卷积核。
例如,分类器520可以包括两个softmax分类器,分别为第一softmax分类器和第二softmax分类器。第一softmax分类器用于对每个像素是文本或非文本(正或负)进行分类预测,第二softmax分类器对每个像素的四个领域的像素是否存在连接(link)进行分类预测。
例如,利用文本检测神经网络对每个中间输入图像进行文本检测,以确定每个中间输入图像对应的文本检测区域组包括:使用第一卷积模块对输入图像进行卷积处理,以得到第一卷积特征图组;使用第一下采样模块对第一卷积特征图组进行下采样处理,以得到第一下采样特征图组;使用第二卷积模块对第一下采样特征图组进行卷积处理,以得到第二卷积特征图组;使用第二下采样模块对第二卷积特征图组进行下采样处理,以得到第二下采样特征图组,且使用第一降维模块对第二卷积特征图组进行降维处理,以得到第一降维特征图组;使用第三卷积模块对第二下采样特征图组进行卷积处理,以得到第三卷积特征图组;使用第三下采样模块对第三卷积特征图组进行下采样处理,以得到第三下采样特征图组,且使用第二降维模块对第三卷积特征图组进行降维处理,以得到第二降维特征图组;使用第四卷积模块对第三下采样特征图组进行卷积处理,以得到第四卷积特征图组;使用第四下采样模块对第四卷积特征图组进行下采样处理,以得到第四下采样特征图组,且使用第三降维模块对第四卷积特征图组进行降维处理,以得到第三降维特征图组;使用第五卷积模块对第四下采样特征图组进行卷积处理,以得到第五卷积特征图组;使用第五下采样模块对所述第五卷积特征图组进行下采样处理,以得到第五下采样特征图组,且使 用第四降维模块对第五卷积特征图组进行降维处理,以得到第四降维特征图组;使用全连接模块对所述第五下采样特征图组进行卷积处理,以得到第六卷积特征图组;使用第五降维模块对所述第六卷积特征图组进行降维处理,以得到第五降维特征图组;对第四降维特征图组和第五降维特征图组进行融合处理,以得到第一融合特征图组;使用第一上采样模块对第一融合特征图组进行上采样处理,以得到第一上采样特征图组;对第一上采样特征图组和第三降维特征图组进行融合处理,以得到第二融合特征图组;使用第二上采样模块对所述第二融合特征图组进行上采样处理,以得到第二上采样特征图组;对第二上采样特征图组和所述第二降维特征图组进行融合处理,以得到第三融合特征图组;使用第三上采样模块对第三融合特征图组进行上采样处理,以得到第三上采样特征图组;对第三上采样特征图组和第一降维特征图组进行融合处理,以得到第四融合特征图组;使用分类器对第四融合特征图组进行分类处理,以得到文本分类预测图和连接分类预测图;根据连接分类预测图和文本分类预测图,以确定文本检测区域组。
例如,如图5所示,在一些实施例中,每个中间输入图像的尺寸可以为512*512,通道数量为3,3个通道分别为红色通道、蓝色通道和绿色通道。
例如,如图5所示,第一卷积特征图组CN51中的特征图的数量为64,且第一卷积特征图组CN51中的每个特征图的尺寸可以为512*512;第二卷积特征图组CN52中的特征图的数量为128,且第二卷积特征图组CN52中的每个特征图的尺寸可以为256*256;第三卷积特征图组CN53中的特征图的数量为256,且第三卷积特征图组CN53中的每个特征图的尺寸可以为128*128;第四卷积特征图组CN54中的特征图的数量为512,且第四卷积特征图组CN54中的每个特征图的尺寸可以为64*64;第五卷积特征图组CN55中的特征图的数量为512,且第五卷积特征图组CN55中的每个特征图的尺寸可以为32*32;第六卷积特征图组CN56中的特征图的数量为512,且第六卷积特征图组CN56中的每个特征图的尺寸可以为32*32。
例如,第二卷积特征图组CN52中的特征图的尺寸为中间输入图像的尺寸的1/(2*2),第三卷积特征图组CN53中的特征图的尺寸为中间输入图像的尺寸的1/(4*4),第四卷积特征图组CN54中的特征图的尺寸为中间输入图像的尺寸的1/(8*8),第五卷积特征图组CN55中的特征图的尺寸为中间输入图像的尺寸的1/(16*16)。
例如,第一下采样特征图组DP51中的特征图的数量为64,且第一下采样特征图组DP51中的每个特征图的尺寸为256*256;第二下采样特征图组DP52中的特征图的数量为128,且第二下采样特征图组DP52中的每个特征图的尺寸为128*128;第三下采样特征图组DP53中的特征图的数量为256,且第三下采样特征图组DP53中的每个特征图的尺寸为64*64;第四下采样特征图组DP54中的特征图的数量为512,且第四下采样特征图组DP54中的每个特征图的尺寸为32*32;第五下采样特征图组DP55中的特征图的数量为512,且第五下采样特征图组DP55中的每个特征图的尺寸为32*32。
例如,第一降维特征图组DR51至第五降维特征图组DR55每个中的特征图的数量为18。第一降维特征图组DR51中的每个特征图的尺寸为256*256,第二降维特征图组DR52中的每个特征图的尺寸为128*128,第三降维特征图组DR53中的每个特征图的尺寸为64*64,第四降维特征图组DR54中的每个特征图的尺寸为32*32,第五降维特征图组DR55中的每个特征图的尺寸为32*32。
例如,第一融合特征图组FU51至第四融合特征图组FU54的每个中的特征图的数量为18。第一融合特征图组FU51中的每个特征图的尺寸为32*32;第二融合特征图组FU52中的每个特征图的尺寸为64*64;第三融合特征图组FU53中的每个特征图的尺寸为128*128;第四融合特征图组FU54中的每个特征图的尺寸为256*256。
例如,第一上采样特征图组UP51至第三上采样特征图组UP53的每个中的特征图的数量为18。第一上采样特征图组UP51中的每个特征图的尺寸为64*64;第二上采样特征图组UP52中的每个特征图的尺寸为128*128;第三上采样特征图组UP53中的每个特征图的尺寸为256*256。
图6为本公开另一实施例提供的一种特征图中一个像素和该像素的相邻像素的示意图。
例如,分类器520对第四融合特征图组FU54进行分类处理,以得到文本分类预测图和连接分类预测图。例如,文本分类预测图包括2个特征图,连接分类预测图包括16个特征图,需要说明的是,文本分类预测图和连接分类预测图中的每个特征图中的像素的值均大于等于0且小于等于1,且表示文本预测概率或连接预测概率。文本分类预测图中的特征图表示每个像素是否为文本的概率图,连接分类预测图中的特征图表示每个像素与该像素的八个邻域的相 邻像素是否连接的概率图。
例如,如图6所示,像素PX2-PX9均为像素PX1的相邻像素。在方向R1上,像素PX4和像素PX5与像素PX1直接相邻,在方向C1上,像素PX2和像素PX3与像素PX1直接相邻,也就是说,像素PX2至像素PX5为像素PX1的相邻像素,且分别位于像素PX1的上方、下方、右方、左方,此外,像素PX6-像素PX9位于矩形的像素PX1的两条对角线的方向上,且像素PX6位于像素PX1的右上角,像素PX7位于像素PX1的左上角,像素PX8位于像素PX1的右下角,像素PX9位于像素PX1的左下角。
例如,每个中间输入图像经过图5所示的文本检测神经网络得到每个像素的文本/非文本(正/负)的分类预测概率,以及每个像素和该像素的八个邻域方向的相邻像素(即图6中的像素PX2-PX9)是否存在连接(link)的连接预测概率。通过设定类型概率阈值和分类概率阈值,可以得到正像素集合和正连接集合,然后根据正连接将正像素进行连接,以将正像素分组在一起,例如,可以利用并查集的方法产生正像素的连通域(Connected Components)集合,然后,对连通域集合进行去噪处理,即在连通域集合中将短边小于10个像素或者面积小于300个像素的连通域进行去除。执行去噪处理后的连通域集合中的连通域就表示检测到的文本检测区域。
需要说明的是,利用图5所示的文本检测神经网络对每个中间输入图像进行文本检测和利用图3所示的文本检测神经网络对每个中间输入图像进行文本检测的方法类似,可以参考上述的相关描述,重复之处不再赘述。
例如,图5所示的文本检测神经网络的网络深度(即卷积层的数量)和图3所示的文本检测神经网络的网络深度相同。在图5所示的文本检测神经网络中,文本检测神经网络中的第一卷积模块中的卷积层中的卷积核的数量为64,后续每个卷积模块的卷积层中的卷积核的数量翻倍,在图3所示的文本检测神经网络中,文本检测神经网络中的第一卷积模块中的卷积层中的卷积核的数量为8,后续每个卷积模块的卷积层中的卷积核的数量翻倍。同时在特征融合过程中,图5所示的文本检测神经网络中融合了第二卷积模块至第五卷积模块提取的特征,而图3所示的文本检测神经网络中则仅融合了第三卷积模块至第五卷积模块提取的特征。由此,相对于图5所示的文本检测神经网络,在保证检测准确率的情况下,图3所示的文本检测神经网络具有网络模型小和计算量小等特点,例如,网络模型的大小减少约50倍,计算速度提高约10倍,由此可 以减少文本检测神经网络的计算量,加快文本检测神经网络的运算效率,减少用户等待时间,提高用户使用体验。
此外,图5所示的文本检测神经网络中,需要获取像素的八个领域方向的连接,而图3所示的文本检测神经网络中,则仅需要获取像素的四个领域方向的连接。由此,相对于图5所示的文本检测神经网络,在图3所示的文本检测神经网络中,pixellink算法的后处理部分的速度提高约2倍,同时改善了文本检测区域的文本粘连(多个单词在一个文本检测区域中)情况。
图7A为本公开至少一个实施例提供的一种输入图像中的文本框组的示意图,图7B为本公开至少一个实施例提供的另一种输入图像中的文本框组的示意图。
例如,图7A为基于像素的八个领域方向进行连接的连接结果,图7B为基于像素的四个领域方向进行连接的连接结果。由图7A和图7B可知,在图7A中,“any communications yet”被划分在同一个文本框中,“subjects in”也被划分在同一个文本框中,即出现文本粘连的现象,此时,一个文本框可以包括多个文本,例如,对于“any communications yet”对应的文本框,文本框包括三个文本,分别为文本“any”、文本“communications”和文本“yet”;而如图7B所示,文本“any”、文本“communications”和文本“yet”分别处于三个文本框中,文本“subjects”和文本“in”也分别处于两个文本框中,由此,文本框的划分更加准确。从图7A和图7B也可以看出,图7B中的文本框更加准确地覆盖对应的文本。
例如,每个中间文本框组中的至少一个中间文本框与文本框组中的至少一个文本框一一对应。每个中间文本框组包括第i中间文本框,文本框组包括第i文本框,第i中间文本框与第i文本框对应,i大于等于1且小于等于每个中间文本框组中的中间文本框的数量。
例如,步骤S1013包括:对于第i文本框,根据多个中间文本框组的多个第i中间文本框对应的坐标组,确定第i文本框的坐标组,从而确定文本框组中的所有文本框的坐标组。由此,得到的文本框组可以更加准确。例如,每个第i中间文本框对应的坐标组可以为矩形的第i中间文本框的四个顶点(例如,四个顶点分别为矩形的左上角顶点、左下角顶点、右上角顶点和右下角顶点)的坐标,基于四个顶点的坐标即可以确定第i中间文本框的尺寸和位置等。
例如,第一中间输入图像对应的中间文本框组包括第一个第i中间文本框, 第二中间输入图像对应的中间文本框组包括第二个第i中间文本框,第三中间输入图像对应的中间文本框组包括第三个第i中间文本框,第四中间输入图像对应的中间文本框组包括第四个第i中间文本框,第五中间输入图像对应的中间文本框组包括第五个第i中间文本框,在图2A-2E所示的示例中,第一个第i中间文本框至第五个第i中间文本框可以均为“French”对应的文本框,即第一个第i中间文本框至第五个第i中间文本框中的文本均为“French”。
例如,可以将多个中间文本框组的多个第i中间文本框对应的坐标组进行加权求和以确定第i文本框的坐标组。
例如,可以根据实际应用情况为第一个第i中间文本框至第五个第i中间文本框设置权重,例如,在一些实施例,第一个第i中间文本框至第五个第i中间文本框的权重均为1;然后将第一个第i中间文本框至第五个第i中间文本框对应的坐标组加权求平均以确定第i文本框的坐标组,例如,第一个第i中间文本框至第五个第i中间文本框的左上角顶点的坐标进行加权求平均以得到第i文本框的左上角顶点的坐标;第一个第i中间文本框至第五个第i中间文本框的左下角顶点的坐标进行加权求平均以得到第i文本框的左下角顶点的坐标;第一个第i中间文本框至第五个第i中间文本框的右上角顶点的坐标进行加权求平均以得到第i文本框的右上角顶点的坐标;第一个第i中间文本框至第五个第i中间文本框的右下角顶点的坐标进行加权求平均以得到第i文本框的右下角顶点的坐标,由此确定第i文本框的坐标组。
需要说明的是,在对多个中间文本框对应的坐标组进行加权求平均之前,需要先根据多个中间输入图像的尺寸对多个中间文本框对应的坐标组进行转换。例如,在图2A至2E所示的示例中,对于第一个第i中间文本框的坐标组,由于第一中间输入图像的尺寸为0.4*(W*H),则第一个第i中间文本框的坐标组需要扩大2.5倍;对于第二个第i中间文本框的坐标组,由于第二中间输入图像的尺寸为0.6*(W*H),则第二个第i中间文本框的坐标组需要扩大5/3倍;对于第三个第i中间文本框的坐标组,由于第三中间输入图像的尺寸为0.8*(W*H),则第三个第i中间文本框的坐标组需要扩大5/4倍;对于第四个第i中间文本框的坐标组,由于第四中间输入图像的尺寸为0.8*(W*H),则第四个第i中间文本框的坐标组可以不变;对于第五个第i中间文本框的坐标组,由于第四中间输入图像的尺寸为1.5*(W*H),则第五个第i中间文本框的坐标组需要缩小2/3倍。然后,将第一个第i中间文本框至第五个第i中间文本框对 应的变换后的坐标组进行加权求平均以确定第i文本框的坐标组。
值得注意的是,在本公开的实施例中,确定第i文本框的坐标组的方式不限于上面描述的方法,还可以采用其他合适的方法根据第一个第i中间文本框至第五个第i中间文本框对应的坐标组确定第i文本框的坐标组,本公开对此不作具体限制。
图8A为本公开另一实施例提供的一种输入图像中的文本框组的示意图,图8B为本公开另一实施例提供的另一种输入图像中的文本框组的示意图。
例如,如图1所示,步骤S102包括:确定点译笔的笔尖的位置;基于笔尖的位置,在输入图像中标注出待检测区域;确定待检测区域分别与至少一个文本框之间的至少一个重叠区域;确定至少一个重叠区域中的最大重叠区域对应的文本框作为目标文本框。
例如,在一些实施例中,至少一个重叠区域和至少一个文本框一一对应。当输入图像中的某个文本框与待检测区域不重叠,则该文本框对应的重叠区域为0。需要说明的是,在另一些实施例中,至少一个重叠区域和至少一个文本框不一一对应,例如,当输入图像中的某个文本框与待检测区域彼此重叠时,则该文本框具有对应的重叠区域;当输入图像中的某个文本框与待检测区域不重叠时,则该文本框没有重叠区域,例如,在图8A所示的示例中,待检测区域(即灰白色矩形框)仅与输入图像中三个文本框重叠,即重叠区域的数量为3。
例如,用户可以利用点译笔选择目标文本,即待译文本。例如,用户可以使用点译笔的笔尖指示目标文本,点译笔的笔尖和摄像头的相对位置固定,因此,笔尖在由摄像头拍摄得到的输入图像中的位置固定,例如,在一些实施例中,笔尖所在位置可以为输入图像的一条侧边(例如,图8A所示的底边)的中心,根据输入图像中的文本大小,设定一个固定大小的待检测区域,例如,待检测区域可以为图8A所示的灰白色矩形框。分别计算输入图像中的至少一个文本框和此待检测区域的重叠情况,从而可以确定至少一个重叠区域,至少一个重叠区域中的最大重叠区域对应的文本框作为目标文本框,目标文本框中的文本即为用户选择的目标文本。如图8A和图8B所示,在该输入图像的多个文本框中,待检测区域与包含文本“applied”的文本框重叠,且具有第一重叠区域;待检测区域与包含文本“Inte”的文本框重叠,且具有第二重叠区域;待检测区域与包含文本“neural”的文本框重叠,且具有第三重叠区域,除了包 含文本“applied”的文本框、包含文本“Inte”的文本框、包含文本“neural”的文本框之外,该输入图像中的其余文本框与该待检测区域不重叠。在第一重叠区域至第三重叠区域中,第三重叠区域最大,也就是说,包含文本“neural”的文本框与待检测区域之间的第三重叠区域最大,从而该包含文本“neural”的文本框为目标文本框,文本“neural”为目标文本。需要说明的是,图8B仅示出了目标文本框。
值得注意的是,在一些实施例中,待检测区域也可以是固定不必的,不随输入图像中的文本大小而变化。在图8A所示的示例中,待检测区域为矩形,然而本公开不限于此,待检测区域也可以为菱形、圆形等合适的形状。
例如,至少一个文本框包括N个文本框,N为大于2的正整数,也就是说,文本框组包括至少三个文本框。此时,在步骤S103中,根据至少一个文本框的偏转角度和坐标组,确定用于目标文本框的校正角度和校正方向可以包括:根据N个文本框对应的N个偏转角度,确定N个文本框的平均偏转角度;判断平均偏转角度是否大于第一角度阈值或小于第二角度阈值;响应于平均偏转角度大于第一角度阈值或小于第二角度阈值,确定用于目标文本框的校正角度为0度;或者,响应于平均偏转角度小于等于第一角度阈值且大于等于第二角度阈值,根据N个文本框对应的N个坐标组,确定分别对应于N个文本框的N个长宽比,根据N个长宽比确定用于目标文本框的校正方向,响应于校正方向,根据N个偏转角度,确定校正角度。
在本公开的实施例中,在得到目标文本框之后,可以对目标文本框进行旋转,然后对旋转后的目标文本框进行文本识别,从而提高文本识别的准确率。
例如,至少一个文本框中的每个文本框的坐标组包括每个文本框的至少三个顶点的坐标。对于矩形的文本框,每个文本框具有四个顶点,则每个文本框的坐标组包括每个文本框的三个顶点的坐标或四个顶点的坐标。
例如,在一些实施例中,第一角度阈值为80度,第二角度阈值为10度。
例如,由于文本识别算法本身具有一定的鲁棒性,因此当N个文本框的平均偏转角度大于第一角度阈值或小于第二角度阈值时,无需对目标文本框进行旋转,此时,目标文本框即为最终目标文本框,并直接对最终目标文本框(即目标文本框)进行文本识别。而当N个文本框的平均偏转角度小于等于第一角度阈值且大于等于第二角度阈值时,则需要对目标文本框进行旋转以得到最终目标文本框,然后对最终目标文本框进行文本识别。
图9为本公开至少一个实施例提供的文本框位于坐标系中的示意图。
例如,如图9所示,坐标系的原点可以为输入图像的一个顶点,例如,右上角的顶点,例如,对于图8A所示的输入图像,坐标系的原点可以为输入图像的靠近包含文本“with”的文本框的顶点,即右上角的顶点。坐标系的两个坐标轴(X轴和Y轴)可以分别与输入图像的两条相邻的边平行。
在本公开的实施例中,在最小外接矩形算法中,如图9所示,以离X轴最远的顶点为第一个顶点T1,并确定第一个顶点T1的坐标(x0,y0),然后,基于第一个顶点T1,顺时针依次得到该文本框的第二个顶点T2、第三个顶点T3和第四个顶点T4,然后确定第二个顶点T2的坐标(x1,y1)、第三个顶点T3的坐标(x2,y2)和第四个顶点T4的坐标(x3,y3)。此外,文本框的角度是以第一个顶点T1为原点逆时针旋转到文本框的最近的一个边为止的角度,即图9所示的角度θ。在本公开中,文本框的偏转角度即为以第一个顶点T1为原点逆时针旋转到文本框的最近一个边为止的角度,即图9所示的文本框的偏转角度为角度θ。
需要说明的是,在本公开的实施例中,文本框的宽表示第一个顶点T1为原点逆时针旋转到文本框的最近的一个边,文本框的长表示文本框的宽相邻的边。例如,在图9所示的示例中,文本框的宽表示为Wd,文本框的长表示为Hg,从而文本框的长宽比表示为Hg/Wd。在图9所示的示例中,文本框的宽Wd小于文本框的长Hg,然而,在一些实施例中,文本框的宽Wd也可能大于或等于文本框的长Hg。
例如,在步骤S103中,基准方向可以为水平方向,在图9所示的示例中,基准方向可以与坐标系的X轴平行。
例如,根据N个长宽比确定用于目标文本框的校正方向包括:根据N个长宽比,将N个文本框分为第一文本框子组和第二文本框子组;根据第一文本框子组和第二文本框子组,确定第一文本框数量和第二文本框数量,其中,第一文本框数量为第一文本框子组中的文本框的数量,第二文本框数量为第二文本框子组中的文本框的数量;根据第一文本框数量和第二文本框数量,确定校正方向。
例如,文本框组被分为第一文本框子组和第二文本框子组。第一文本框子组中的每个文本框的长宽比大于等于1,也就是说,第一文本框子组中的每个文本框的长大于或等于文本框的宽,例如,图9示出的文本框为第一文本框子 组中的文本框。第二文本框子组中的每个文本框的长宽比小于1,也就是说,第一文本框子组中的每个文本框的长小于文本框的宽。
例如,根据第一文本框数量和第二文本框数量,确定校正方向包括:响应于第一文本框数量和第二文本框数量满足第一条件,则确定校正方向为逆时针方向;或者,响应于第一文本框数量和第二文本框数量满足第二条件,则确定校正方向为顺时针方向。
例如,第一条件为ra>rb+r0,第二条件为ra+r0<rb,ra为第一文本框数量,rb为第二文本框数量,r0为常数。ra+rb=N。
例如,在一些实施例中,r0为2,但本公开不限于此,r0的值可以根据具体需求设置。
例如,在响应于平均偏转角度小于等于第一角度阈值且大于等于第二角度阈值,文字识别方法还包括:响应于第一文本框数量和第二文本框数量不满足第一条件和第二条件,确定用于目标文本框的校正角度为0度。
综上可知,当N个文本框的平均偏转角度小于等于第一角度阈值且大于等于第二角度阈值时,校正方向的判断公式为:
Figure PCTCN2020073576-appb-000003
需要说明的是,在上述公式中,“校正方向为0”表示校正方向任意或者不需要进行校正。
例如,当校正方向不为0,即校正方向为逆时针方向或顺时针方向时,可以根据N个偏转角度,确定校正角度。而当校正方向为0时,则表不需要对目标文本框进行校正。
例如,根据N个偏转角度,确定校正角度包括:响应于校正方向(即响应于校正方向不为0),将N个偏转角度按照升序进行排序以得到第一偏转角度至第N个偏转角度,其中,N个偏转角度中的第P个偏转角度和第P+1个偏转角度之差大于10度,P为正整数且小于N;将N个偏转角度划分为第一偏转角度组、第二偏转角度组和第三偏转角度组,其中,第一偏转角度组中的偏转角度均为0度,第二偏转角度组包括第一偏转角度至第P个偏转角度,第三偏转角度组包括第P+1偏转角度至第N个偏转角度;根据第一偏转角度组、第二偏转角度组和第三偏转角度组,确定第一角度数量、第二角度数量和第三角度数量,其中,第一角度数量为第一偏转角度组中的偏转角度的数量,第二 角度数量为第二偏转角度组中的偏转角度的数量,第三角度数量为第三偏转角度组中的偏转角度的数量;根据第一角度数量、第二角度数量和第三角度数量,确定校正角度。
例如,根据第一角度数量、第二角度数量和第三角度数量,确定校正角度包括:响应于第一角度数量满足第三条件,则确定校正角度为0度;或者响应于第一角度数量不满足第三条件,且第二角度数量和第三角度数量满足第四条件,则确定校正角度为第一角度值;或者响应于第一角度数量不满足第三条件,且第二角度数量和第三角度数量满足第五条件,则确定校正角度为第二角度值;或者响应于第一角度数量不满足第三条件且第二角度数量和第三角度数量不满足第四条件和第五条件,则确定校正角度为0度。
例如,第三条件为s0>ss1,第四条件为s1>s2+ss2,第五条件为s1+ss2<s2,s0为第一角度数量,s1为第二角度数量,s2为第三角度数量,ss1为常数,ss2为常数。
例如,在一些实施例中,ss1为5,ss2为2。但本公开不限于此,ss1和ss2的值可以根据具体需求设置。
例如,第一角度值可以表示为:
Figure PCTCN2020073576-appb-000004
其中,1≤i≤P,ai表示第二偏转角度组中的第一偏转角度至第P个偏转角度中的第i个偏转角度。
例如,第二角度值可以表示为:
Figure PCTCN2020073576-appb-000005
其中,P+1≤j≤N,aj表示第三偏转角度组中的所述第P+1偏转角度至第N个偏转角度中的第j个偏转角度。
例如,当s0>ss1,即偏转角度为0度的文本框的数量大于ss1(例如,5),则确定校正角度为0度,即不需要对中间目标图像进行旋转。当s0≤ss1且s1>s2+ss2,则确定需要对中间目标图像进行旋转,且校正角度为
Figure PCTCN2020073576-appb-000006
当s0≤ss1且s1+ss2<s2,则确定需要对中间目标图像进行旋转,且校正角度为
Figure PCTCN2020073576-appb-000007
当第三条件、第四条件和第五条件均不满足时,则确定校正角度为0度,即不需要对中间目标图像进行旋转。
综上可知,当校正方向为逆时针方向或顺时针方向时,校正角度的确定公式为:
Figure PCTCN2020073576-appb-000008
例如,至少一个文本框包括N个文本框,N为1或2,也就是说,文本框组包括一个或两个文本框,此时,可以直接根据目标文本框的偏转角度和长宽比确定校正方向和校正角度。在步骤S103中,根据至少一个文本框的偏转角度和坐标组,确定用于目标文本框的校正角度和校正方向包括:根据目标文本框的偏转角度,确定用于目标文本框的校正角度;响应于校正角度,根据目标文本框的坐标组,确定目标文本框的长宽比;根据目标文本框的长宽比,确定用于目标文本框的校正方向。
例如,用于目标文本框的校正角度即为目标文本框的偏转角度。需要说明的是,在一些实施例中,当目标文本框的偏转角度大于第一角度阈值或小于第二角度阈值,则可以确定校正角度为0度。
例如,响应于校正角度,根据目标文本框的长宽比,确定用于中间文目标本框的校正方向包括:响应于目标文本框的长宽比大于等于1,确定校正方向为逆时针方向;或者,响应于目标文本框的长宽比小于1,确定校正方向为顺时针方向。需要说明的是,“响应于校正角度”表示响应于校正角度不为0度。
例如,当文本框组包括两个文本框时,也可以根据两个文本框的长宽比确定用于目标文本框的校正方向。例如,若两个文本框的长宽比均大于等于1,确定校正方向为逆时针方向;或者,若两个文本框的长宽比均小于1,确定校正方向为顺时针方向;或者,若两个文本框中的一个文本框的长宽比小于1,且两个文本框中的另一个文本框的长宽比大于等于1,则根据目标文本框的长宽比确定校正方向,即若目标文本框的长宽比大于等于1,确定校正方向为逆时针方向;若目标文本框的长宽比小于1,确定校正方向为顺时针方向。
例如,最终目标文本框相对于基准方向的偏转角度大于第一角度阈值或者小于第二角度阈值。
例如,至少一个文本框中的每个文本框的偏转角度大于等于0度且小于等于90度。
例如,在步骤S103中,按照校正角度旋转目标文本框以得到最终目标文本框包括:按照校正角度和校正方向旋转输入图像,以使得目标文本框旋转得到最终目标文本框;或者,对目标文本框进行切割处理以得到切割后的目标文本框,按照校正角度和校正方向旋转切割后的目标文本框,以得到最终目标文本框。
在本公开中,在一些实施例中,每个文本框可以以标注框的形式被标注在输入图像中,从而在后续操作中,可以直接对该标注出文本框的输入图像进行处理,也就是说,在本公开中不对输入图像进行切割操作,此时可以根据校正角度和校正方向直接旋转输入图像,从而使目标文本框旋转而得到为最终目标文本框。在另一些实施例中,在确定目标文本框之后,可以对目标文本框进行切割处理以得到切割后的目标文本框,从而在后续操作中,可以直接对切割后的目标文本框进行处理,此时,可以按照校正角度和校正方向旋转切割后的目标文本框,以得到最终目标文本框。
需要说明的是,在本公开的实施例中,目标文本框和最终目标文本框的尺寸和包含的文本等没有区别,不同之处在于:若对目标文本框进行旋转以得到最终目标文本框,则目标文本框相对于基准方向的偏转角度和最终目标文本框相对于基准方向的偏转角度不相同;而若不需要对目标文本框进行旋转,则最终目标文本框即为目标文本框。
例如,在获取输入图像之前,文字识别方法还包括:训练待训练文本检测神经网络,以得到文本检测神经网络。
例如,训练待训练文本检测神经网络,以得到文本检测神经网络包括:获取训练输入图像和目标文本检测区域组;利用待训练文本检测神经网络对训练输入图像进行处理,以得到训练文本检测区域组;根据目标文本检测区域组和训练文本检测区域组,通过损失函数计算待训练文本检测神经网络的损失值;根据损失值对待训练文本检测神经网络的参数进行修正,在损失函数满足预定条件时,得到训练好的文本检测神经网络,在损失函数不满足预定条件时,继续输入训练输入图像和目标文本检测区域组以重复执行上述训练过程。
例如,在一个示例中,上述预定条件对应于在输入一定数量的训练输入图像和目标文本检测区域组的情况下,损失函数的损失收敛(即损失值不再显著减小)。例如,在另一个示例中,上述预定条件为训练次数或训练周期达到预定数目(例如,该预定数目可以为上百万)。
例如,损失函数包括焦点损失函数。在神经网络的训练阶段,针对训练数据易出现正负样本不均等情况,将PixelLink算法采用交叉熵损失函数(Cross Entropy Loss)改为焦点损失函数(Focal Loss),焦点损失函数可以加快神经网络模型的收敛速度,改善图像中正负样本不均对算法效果的影响,使预测得到的文本检测区域更准确。
例如,焦点损失函数可以表示为:
FL(p t)=-α t(1-p t) γlog(p t)
其中,p t表示不同类别的分类概率(例如,文本预测概率或连接预测概率),(1-p t)表示调整系数,γ表示焦点参数,且为大于0的值,α t表示[0,1]间的小数,γ和α t都是固定值,例如,在一些实施例中,γ=2,α t=1。
图10为本公开至少一个实施例提供的一种交叉熵损失函数和焦点损失函数的损失下降曲线图;图11A为本公开至少一个实施例提供的一种基于交叉熵损失函数的文本检测神经网络的模型结果的示意图,图11B为本公开至少一个实施例提供的一种基于焦点损失函数的文本检测神经网络的模型结果的示意图。
例如,如图10所示,纵坐标表示损失(pixel_link_loss),横坐标表示训练迭代次数。图10中靠上方的曲线是交叉熵损失函数的损失下降曲线,靠下方(即靠近横坐标)的是焦点损失函数的损失下降曲线,由图10可知,基于焦点损失函数进行训练的模型收敛速度比基于交叉熵损失函数进行训练的模型收敛速度快。例如,在训练迭代次数为120K(120000)时,基于焦点损失函数的损失值约为0.2,基于交叉熵损失函数的损失值约为0.73,即在相同的训练迭代次数的情况下,基于焦点损失函数的损失值比基于交叉熵损失函数的损失值更小,也就是说,基于焦点损失函数进行训练的模型的拟合性更好。此外,在图11A中,“multiple essential”被划分在同一个文本检测区域中,即出现文本粘连的现象;而在图11B中,文本“multiple”和文本“essential”分别处于两个文本检测区域中,也就是说,相比于基于交叉熵损失函数训练得到的文本检测神经网络,基于焦点损失函数训练得到的文本检测神经网络处理中间输入图像之后,文本检测区域更加精确,且不会出现文本粘连的情况。
例如,如图1所示,步骤S104可以包括:利用文本识别神经网络对最终目标文本框进行识别处理,以得到中间文本;对中间文本进行校验,以得到目标文本。
例如,文本识别神经网络为多目标纠正注意网络(MORAN),多目标纠正注意网络可以包括矫正子网络(MORN)和识别子网络(ASRN)。首先,矫正子网络将最终目标文本框分解为多块小图像,然后对每块小图像回归偏移量,并对偏移量进行平滑操作,再在最终目标文本框上进行采样操作,得到新的形状更加规则的水平文本框,即校正后的最终目标文本框。识别子网络是将校正后的最终目标文本框输入到基于注意力机制的卷积递归神经网络中进行文本识别,从而得到识别后的中间文本。
需要说明的是,在获取输入图像之前,文字识别方法还包括:训练待训练多目标纠正注意网络,以得到多目标纠正注意网络。
例如,通过文本识别神经网络得到的中间文本可能会出现字符错误、字符遗漏、多个单词等情况,为了提高准确率,需要对识别得到的中间文本进行后处理纠正,纠正中间文本中的语义错误、逻辑错误等,以得到准确的目标文本。例如,若中间文本为单词,首先分别构造单词数据库和分词数据库,通过匹配算法纠正中间文本中的字符错误,并将识别到的字符以单词为单位进行区分,最终得到目标文本,从而提高整体算法的准确性。例如,单词数据库和分词数据库可以为相同的数据库。
例如,在一些实施例中,文字识别方法还包括:对目标文本进行翻译,以得到并输出目标文本的翻译结果。
例如,使用词典数据库对最终的识别得到的目标文本进行索引,以检索得到翻译结果。例如,目标文件的翻译结果可以通过显示器进行显示,也可以通过扬声器等进行语音输出。
本公开至少一实施例还提供一种文字识别方法。该文字识别方法可以应用于点译技术,例如,应用于点译笔。
在一些实施方式中,文字识别方法包括:获取输入图像;对输入图像进行文本检测,以确定文本框组,其中,文本框组包括至少一个文本框;从至少一个文本框中确定目标文本框,其中,目标文本框包括目标文本;对所述目标文本框进行识别,以得到目标文本。对输入图像进行文本检测时可以通过如下方案实施:即利用图3所示的文本检测神经网络对输入图像进行文本检测。
例如,该文字识别方法可以包括:获取输入图像;利用文本检测神经网络对输入图像进行文本检测,以确定文本框组,其中,文本框组包括至少一个文本框;从至少一个文本框中确定目标文本框,其中,目标文本框包括目标文本; 旋转目标文本框以得到最终目标文本框;对最终目标文本框进行识别,以得到目标文本。
例如,文本检测神经网络为图3所示的文本检测神经网络。文本检测神经网络包括第一卷积模块至第五卷积模块、第一下采样模块至第五下采样模块、全连接模块、第一上采样模块至第三上采样模块、第一降维模块至第四降维模块和分类器。
例如,第一卷积模块中的每个卷积层中的卷积核的数量为8,第二卷积模块中的每个卷积层中的卷积核的数量为16,第三卷积模块中的每个卷积层中的卷积核的数量为32,第四卷积模块中的每个卷积层中的卷积核的数量为64,第五卷积模块中的每个卷积层中的卷积核的数量为128。
在该实施例中,在保证检测准确率的情况下,文本检测神经网络具有网络模型小和计算量小等特点,例如,相对于现有的基于PixelLink算法的神经网络,网络模型的大小减少约50倍,计算速度提高约10倍,由此可以减少文本检测神经网络的计算量,加快文本检测神经网络的运算效率,减少用户等待时间,提高用户使用体验。
此外,第一降维模块中的每个卷积层中的卷积核的数量为10,第二降维模块中的每个卷积层中的卷积核的数量为10,第三降维模块中的每个卷积层中的卷积核的数量为10,第四降维模块中的每个卷积层中的卷积核的数量为10。也就是说,在本实施例中,文本检测神经网络仅需要获取像素的四个领域方向的连接。由此,pixellink算法的后处理部分的速度提高约2倍,同时改善了文本检测区域的文本粘连(多个单词在一个文本检测区域中)情况。
需要说明的是,关于文本检测神经网络的具体说明可以参考上面对图3所示的文本检测神经网络的详细描述。
例如,利用文本检测神经网络对输入图像进行文本检测,以确定文本框组,包括:对输入图像进行尺度变换处理,以得到多个中间输入图像;对于多个中间输入图像中的每个中间输入图像,利用文本检测神经网络对每个中间输入图像进行文本检测,以得到每个中间输入图像对应的中间文本框组,从而得到多个中间输入图像对应的多个中间文本框组,其中,每个中间文本框组包括至少一个中间文本框;根据多个中间文本框组,确定文本框组。
例如,多个中间输入图像包括输入图像,且多个中间输入图像的尺寸彼此不相同。需要说明的是,关于中间输入图像的相关说明可以参考上述文字识别 方法的实施例中的描述,在此不再赘述。
例如,每个中间文本框组中的至少一个中间文本框与文本框组中的至少一个文本框一一对应。每个中间文本框组包括第i中间文本框,文本框组包括第i文本框,第i中间文本框与第i文本框对应,i大于等于1且小于等于每个中间文本框组中的中间文本框的数量。
例如,根据多个中间文本框组,确定文本框组包括:对于第i文本框,根据多个中间文本框组的多个第i中间文本框对应的坐标组,确定第i文本框的坐标组,从而确定文本框组中的所有文本框的坐标组。由此,得到的文本框组可以更加准确。
例如,利用文本检测神经网络对每个中间输入图像进行文本检测,以得到每个中间输入图像对应的中间文本框组,包括:利用文本检测神经网络对每个中间输入图像进行文本检测,以确定每个中间输入图像对应的文本检测区域组;利用最小外接矩形算法对每个中间输入图像对应的文本检测区域组进行处理,以确定每个中间输入图像对应的中间文本框组。
例如,每个中间输入图像对应的文本检测区域组包括至少一个文本检测区域,至少一个文本检测区域与至少一个中间文本框一一对应,且每个中间文本框覆盖对应的文本检测区域。
例如,利用文本检测神经网络对每个中间输入图像进行文本检测,以确定每个中间输入图像对应的文本检测区域组包括:使用第一卷积模块对每个中间输入图像进行卷积处理,以得到第一卷积特征图组;使用第一下采样模块对第一卷积特征图组进行下采样处理,以得到第一下采样特征图组;使用第二卷积模块对第一下采样特征图组进行卷积处理,以得到第二卷积特征图组;使用第二下采样模块对第二卷积特征图组进行下采样处理,以得到第二下采样特征图组;使用第三卷积模块对第二下采样特征图组进行卷积处理,以得到第三卷积特征图组;使用第三下采样模块对第三卷积特征图组进行下采样处理,以得到第三下采样特征图组,且使用第一降维模块对第三卷积特征图组进行降维处理,以得到第一降维特征图组;使用第四卷积模块对第三下采样特征图组进行卷积处理,以得到第四卷积特征图组;使用第四下采样模块对第四卷积特征图组进行下采样处理,以得到第四下采样特征图组,且使用第二降维模块对第四卷积特征图组进行降维处理,以得到第二降维特征图组;使用第五卷积模块对第四下采样特征图组进行卷积处理,以得到第五卷积特征图组;使用第五下采样模 块对第五卷积特征图组进行下采样处理,以得到第五下采样特征图组,且使用第三降维模块对第五卷积特征图组进行降维处理,以得到第三降维特征图组;使用全连接模块对第五下采样特征图组进行卷积处理,以得到第六卷积特征图组;使用第四降维模块对第六卷积特征图组进行降维处理,以得到第四降维特征图组;使用第一上采样模块对第四降维特征图组进行上采样处理,以得到第一上采样特征图组;对第一上采样特征图组和第三降维特征图组进行融合处理,以得到第一融合特征图组;使用第二上采样模块对第一融合特征图组进行上采样处理,以得到第二上采样特征图组;对第二上采样特征图组和第二降维特征图组进行融合处理,以得到第二融合特征图组;使用第三上采样模块对第二融合特征图组进行上采样处理,以得到第三上采样特征图组;对第三上采样特征图组和第一降维特征图组进行融合处理,以得到第三融合特征图组;使用分类器对第三融合特征图组进行分类处理,以得到文本分类预测图和连接分类预测图;根据连接分类预测图和文本分类预测图,以确定文本检测区域组。
例如,第一卷积特征图组中的特征图的数量为8,第二卷积特征图组中的特征图的数量为16,第三卷积特征图组中的特征图的数量为32,第四卷积特征图组中的特征图的数量为64,第五卷积特征图组中的特征图的数量为128,第六卷积特征图组中的特征图的数量为256,第一降维特征图组中的特征图的数量为10,第二降维特征图组中的特征图的数量为10,第三降维特征图组中的特征图的数量为10,第四降维特征图组中的特征图的数量为10。
例如,在获取输入图像之前,文字识别方法还包括:训练待训练文本检测神经网络,以得到文本检测神经网络。在训练该待训练文本检测神经网络时,损失函数可以为焦点损失函数,焦点损失函数可以加快神经网络模型的收敛速度,改善图像中正负样本不均对算法效果的影响,使预测得到的文本检测区域更准确。
例如,在一些实施例中,旋转目标文本框以得到最终目标文本框,包括:确定目标文本框相对于基准方向的校正角度和校正方向,按照校正角度和校正方向旋转目标文本框以得到最终目标文本框。例如,“确定校正角度和校正方向”的方法可以为任何现有的方法,又例如,“确定校正角度和校正方向”的方法也可以采用本公开上述文字识别方法的实施例中的描述的方法,此时,对目标文本框进行旋转处理,以得到最终目标文本框,包括:获取至少一个文本框的坐标组和相对于基准方向的偏转角度,根据至少一个文本框的偏转角度和坐 标组,确定用于目标文本框的校正角度和校正方向,按照校正角度和校正方向旋转目标文本框以得到最终目标文本框。
需要说明的是,“获取输入图像”、“从至少一个文本框中确定目标文本框”、“对最终目标文本框进行识别,以得到目标文本”等步骤可以参考上面文字识别方法的实施例中相关描述,重复之处在此不再赘述。
本公开至少一个实施例还提供一种文字识别装置,图12为本公开至少一实施例提供的一种文字识别装置的示意性框图。
例如,如图12所示,文字识别装置1200包括图像采集装置1210、存储器1220和处理器1230。应当注意,图12所示的文字识别装置1200的组件只是示例性的,而非限制性的,根据实际应用需要,该文字识别装置1200还可以具有其他组件。
例如,图像采集装置1210用于获取输入图像;存储器1220用于非暂时性存储输入图像以及计算机可读指令;处理器1230用于读取输入图像,并运行计算机可读指令,计算机可读指令被处理器1230运行时执行根据上述任一实施例所述的文字识别方法中的一个或多个步骤。
例如,图像采集装置1210即为上述文字识别方法的实施例中描述的图像采集装置,例如,图像采集装置1210可以是各种类型的摄像头。
例如,文字识别装置1200还包括点译笔1250,点译笔1250用于选择目标文本。图像采集装置1210设置在点译笔1250上,例如,图像采集装置1210可以为设置在点译笔1250上的摄像头。
需要说明的是,存储器1220和处理器1230可以集成在点译笔1250中,也就是说,图像采集装置1210、存储器1220和处理器1230均集成在点译笔1250中。但本公开不限于此,点译笔1250也可以与存储器1220和处理器1230在物理位置上可以分离配置,例如,存储器1220和处理器1230可以集成在电子设备(例如,电脑、手机等)中,图像采集装置1210集成在点译笔1250中,点译笔1250和电子设备在物理位置上可以分离配置,且点译笔1250和电子设备之间可以通过有线或者无线方式进行通信。也就是说,由点译笔1250上的图像采集装置1210采集输入图像之后,电子设备可以经由有线或者无线方式接收从点译笔1250发送的输入图像,并对输入图像进行文本识别处理。又例如,存储器1220和处理器1230也可以集成在云端服务器中,点译笔1250和云端服务器之间通过有线或者无线方式进行通信,云端服务器接收输入图像并 对输入图像进行文本识别处理。
例如,文字识别装置1200还可以包括输出装置,输出装置用于输出目标文本的翻译结果。例如,输出装置可以包括显示器、扬声器、投影仪等,显示器可以用于显示目标文本的翻译结果,扬声器可以用于将目标文本的翻译结果以语音的形式输出。例如,点译笔1250还可以包括通信模块,通信模块用于实现点译笔1250与输出装置之间的通信,例如,将翻译结果传输至输出装置。
例如,处理器1230可以控制文字识别装置1200中的其它组件以执行期望的功能。处理器1230可以是中央处理单元(CPU)、张量处理器(TPU)等具有数据处理能力和/或程序执行能力的器件。中央处理元(CPU)可以为X86或ARM架构等。GPU可以单独地直接集成到主板上,或者内置于主板的北桥芯片中。GPU也可以内置于中央处理器(CPU)上。
例如,存储器1220可以包括一个或多个计算机程序产品的任意组合,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机可读指令,处理器1230可以运行所述计算机可读指令,以实现文字识别装置1200的各种功能。
例如,图像采集装置1210、存储器1220、存储器1230和输出装置等组件之间可以通过网络连接进行通信。网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。网络可以包括局域网、互联网、电信网、基于互联网和/或电信网的物联网(Internet of Things)、和/或以上网络的任意组合等。有线网络例如可以采用双绞线、同轴电缆或光纤传输等方式进行通信,无线网络例如可以采用3G/4G/5G移动通信网络、蓝牙、Zigbee或者WiFi等通信方式。本公开对网络的类型和功能在此不作限制。
例如,关于文字识别装置1200执行文本识别的过程的详细说明可以参考文字识别方法的实施例中的相关描述,重复之处不再赘述。
本公开至少一实施例还提供一种存储介质。例如,存储介质可以为非暂时性存储介质。图13为本公开至少一个实施例提供的一种存储介质的示意图。例如,如图13所示,在存储介质1300上可以非暂时性地存储一个或多个计算 机可读指令1301。例如,当所述计算机可读指令1301由计算机执行时可以执行根据上文所述的文字识别方法中的一个或多个步骤。
例如,该存储介质1300可以应用于上述文字识别装置1200中,例如,其可以为文字识别装置1200中的存储器1220。关于存储介质1300的说明可以参考文字识别装置1200的实施例中对于存储器的描述,重复之处不再赘述。
对于本公开,还有以下几点需要说明:
(1)本公开实施例附图只涉及到与本公开实施例涉及到的结构,其他结构可参考通常设计。
(2)为了清晰起见,在用于描述本发明的实施例的附图中,层或结构的厚度和尺寸被放大。可以理解,当诸如层、膜、区域或基板之类的元件被称作位于另一元件“上”或“下”时,该元件可以“直接”位于另一元件“上”或“下”,或者可以存在中间元件。
(3)在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合以得到新的实施例。
以上所述仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,本公开的保护范围应以所述权利要求的保护范围为准。

Claims (40)

  1. 一种文字识别方法,包括:
    获取输入图像;
    对所述输入图像进行文本检测,以确定文本框组,其中,所述文本框组包括至少一个文本框;
    从所述至少一个文本框中确定目标文本框,其中,所述目标文本框包括目标文本;
    获取所述至少一个文本框的坐标组和相对于基准方向的偏转角度,根据所述至少一个文本框的偏转角度和坐标组,确定用于所述目标文本框的校正角度和校正方向,按照所述校正角度和所述校正方向旋转所述目标文本框以得到最终目标文本框;
    对所述最终目标文本框进行识别,以得到所述目标文本。
  2. 根据权利要求1所述的文字识别方法,其中,所述至少一个文本框包括N个文本框,N为大于2的正整数,
    根据所述至少一个文本框的偏转角度和坐标组,确定用于所述目标文本框的所述校正角度和所述校正方向包括:
    根据所述N个文本框对应的N个偏转角度,确定所述N个文本框的平均偏转角度;
    判断所述平均偏转角度是否大于第一角度阈值或小于第二角度阈值;
    响应于所述平均偏转角度大于所述第一角度阈值或小于所述第二角度阈值,确定用于所述目标文本框的校正角度为0度;或者,
    响应于所述平均偏转角度小于等于所述第一角度阈值且大于等于所述第二角度阈值,根据所述N个文本框对应的N个坐标组,确定分别对应于所述N个文本框的N个长宽比,根据所述N个长宽比确定用于所述目标文本框的所述校正方向,响应于所述校正方向,根据所述N个偏转角度,确定所述校正角度。
  3. 根据权利要求2所述的文字识别方法,其中,根据所述N个长宽比确定用于所述目标文本框的所述校正方向包括:
    根据所述N个长宽比,将所述N个文本框分为第一文本框子组和第二文本框子组,其中,所述第一文本框子组中的每个文本框的长宽比大于等于1, 所述第二文本框子组中的每个文本框的长宽比小于1;
    根据所述第一文本框子组和所述第二文本框子组,确定第一文本框数量和第二文本框数量,其中,所述第一文本框数量为所述第一文本框子组中的文本框的数量,所述第二文本框数量为所述第二文本框子组中的文本框的数量;
    根据所述第一文本框数量和所述第二文本框数量,确定所述校正方向。
  4. 根据权利要求3所述的文字识别方法,其中,根据所述第一文本框数量和所述第二文本框数量,确定所述校正方向包括:
    响应于所述第一文本框数量和所述第二文本框数量满足第一条件,则确定所述校正方向为逆时针方向;或者,
    响应于所述第一文本框数量和所述第二文本框数量满足第二条件,则确定所述校正方向为顺时针方向,
    其中,所述第一条件为ra>rb+r0,所述第二条件为ra+r0<rb,ra为所述第一文本框数量,rb为所述第二文本框数量,r0为常数。
  5. 根据权利要求4所述的文字识别方法,其中,在响应于所述平均偏转角度小于等于所述第一角度阈值且大于等于所述第二角度阈值,所述文字识别方法还包括:
    响应于所述第一文本框数量和所述第二文本框数量不满足所述第一条件和所述第二条件,确定用于所述目标文本框的校正角度为0度。
  6. 根据权利要求4或5所述的文字识别方法,其中,r0为2。
  7. 根据权利要求2-6任一项所述的文字识别方法,其中,响应于所述校正方向,根据所述N个偏转角度,确定所述校正角度包括:
    响应于所述校正方向,将所述N个偏转角度按照升序进行排序以得到第一偏转角度至第N个偏转角度,其中,所述N个偏转角度中的第P个偏转角度和第P+1个偏转角度之差大于10度,P为正整数且小于N;
    将所述N个偏转角度划分为第一偏转角度组、第二偏转角度组和第三偏转角度组,其中,所述第一偏转角度组中的偏转角度均为0度,所述第二偏转角度组包括第一偏转角度至所述第P个偏转角度,所述第三偏转角度组包括所述第P+1偏转角度至第N个偏转角度;
    根据所述第一偏转角度组、所述第二偏转角度组和所述第三偏转角度组,确定第一角度数量、第二角度数量和第三角度数量,其中,所述第一角度数量为所述第一偏转角度组中的偏转角度的数量,所述第二角度数量为所述第二偏 转角度组中的偏转角度的数量,所述第三角度数量为所述第三偏转角度组中的偏转角度的数量;
    根据所述第一角度数量、所述第二角度数量和所述第三角度数量,确定所述校正角度。
  8. 根据权利要求7所述的文字识别方法,其中,根据所述第一角度数量、所述第二角度数量和所述第三角度数量,确定所述校正角度包括:
    响应于所述第一角度数量满足第三条件,则确定所述校正角度为0度;或者
    响应于所述第一角度数量不满足所述第三条件,且所述第二角度数量和所述第三角度数量满足第四条件,则确定所述校正角度为第一角度值;或者
    响应于所述第一角度数量不满足所述第三条件,且所述第二角度数量和所述第三角度数量满足第五条件,则确定所述校正角度为第二角度值;或者
    响应于所述第一角度数量不满足所述第三条件且所述第二角度数量和所述第三角度数量不满足所述第四条件和所述第五条件,则确定所述校正角度为0度;
    其中,所述第三条件为s0>ss1,所述第四条件为s1>s2+ss2,所述第五条件为s1+ss2<s2,s0为所述第一角度数量,s1为所述第二角度数量,s2为所述第三角度数量,ss1为常数,ss2为常数,
    所述第一角度值表示为:
    Figure PCTCN2020073576-appb-100001
    其中,1≤i≤P,ai表示所述第二偏转角度组中的所述第一偏转角度至所述第P个偏转角度中的第i个偏转角度,
    所述第二角度值表示为:
    Figure PCTCN2020073576-appb-100002
    其中,P+1≤j≤N,aj表示所述第三偏转角度组中的所述第P+1偏转角度至所述第N个偏转角度中的第j个偏转角度。
  9. 根据权利要求8所述的文字识别方法,其中,ss1为5,ss2为2。
  10. 根据权利要求2-9任一项所述的文字识别方法,其中,所述第一角度阈值为80度,所述第二角度阈值为10度。
  11. 根据权利要求2-10任一项所述的文字识别方法,其中,所述最终目标文本框相对于所述基准方向的偏转角度大于所述第一角度阈值或者小于所述第二角度阈值。
  12. 根据权利要求1所述的文字识别方法,其中,所述至少一个文本框包括N个文本框,N为1或2,
    根据所述至少一个文本框的偏转角度和坐标组,确定用于所述目标文本框的所述校正角度和所述校正方向包括:
    根据所述目标文本框的偏转角度,确定用于所述目标文本框的所述校正角度;
    响应于所述校正角度,根据所述目标文本框的坐标组,确定所述目标文本框的长宽比;
    根据所述目标文本框的长宽比,确定用于所述目标文本框的所述校正方向。
  13. 根据权利要求12所述的文字识别方法,其中,根据所述目标文本框的长宽比,确定用于所述目标文本框的所述校正方向包括:
    响应于所述目标文本框的长宽比大于等于1,确定所述校正方向为逆时针方向;或者
    响应于所述目标文本框的长宽比小于1,确定所述校正方向为顺时针方向。
  14. 根据权利要求1-13任一项所述的文字识别方法,其中,所述至少一个文本框为矩形框,所述至少一个文本框中的每个文本框的坐标组包括所述每个文本框的至少三个顶点的坐标。
  15. 根据权利要求1-14任一项所述的文字识别方法,其中,所述至少一个文本框中的每个文本框的偏转角度大于等于0度且小于等于90度。
  16. 根据权利要求1-15任一项所述的文字识别方法,其中,按照所述校正角度和所述校正方向旋转所述目标文本框以得到所述最终目标文本框包括:
    按照所述校正角度和所述校正方向旋转所述输入图像,以使得所述目标文本框旋转得到所述最终目标文本框;或者
    对所述目标文本框进行切割处理以得到切割后的目标文本框,按照所述校正角度和所述校正方向旋转所述切割后的目标文本框,以得到所述最终目标文本框。
  17. 根据权利要求1-16任一项所述的文字识别方法,其中,对所述输入图像进行文本检测,以确定所述文本框组包括:
    对所述输入图像进行尺度变换处理,以得到多个中间输入图像,其中,所述多个中间输入图像包括所述输入图像,且所述多个中间输入图像的尺寸彼此不相同;
    对于所述多个中间输入图像中的每个中间输入图像,对所述每个中间输入图像进行文本检测,以得到所述每个中间输入图像对应的中间文本框组,从而得到所述多个中间输入图像对应的多个中间文本框组,其中,每个所述中间文本框组包括至少一个中间文本框;
    根据所述多个中间文本框组,确定所述文本框组。
  18. 根据权利要求17所述的文字识别方法,其中,所述至少一个中间文本框与所述至少一个文本框一一对应,
    每个所述中间文本框组包括第i中间文本框,所述文本框组包括第i文本框,所述第i中间文本框与所述第i文本框对应,i大于等于1且小于等于每个所述中间文本框组中的中间文本框的数量,
    根据所述多个中间文本框组,确定所述文本框组包括:
    对于所述第i文本框,根据所述多个中间文本框组的多个第i中间文本框对应的坐标组,确定所述第i文本框的坐标组,从而确定所述文本框组。
  19. 根据权利要求17或18所述的文字识别方法,其中,对所述每个中间输入图像进行文本检测,以得到所述每个中间输入图像对应的中间文本框组包括:
    利用文本检测神经网络对所述每个中间输入图像进行文本检测,以确定所述每个中间输入图像对应的文本检测区域组;
    利用最小外接矩形算法对所述文本检测区域组进行处理,以确定所述中间文本框组,其中,所述文本检测区域组包括至少一个文本检测区域,所述至少一个文本检测区域与所述至少一个中间文本框一一对应,且每个所述中间文本框覆盖对应的文本检测区域。
  20. 根据权利要求19所述的文字识别方法,其中,所述文本检测神经网络包括第一卷积模块至第五卷积模块、第一下采样模块至第五下采样模块、全连接模块、第一上采样模块至第三上采样模块、第一降维模块至第四降维模块和分类器,
    利用所述文本检测神经网络对所述每个中间输入图像进行文本检测,以确定所述每个中间输入图像对应的所述文本检测区域组包括:
    使用所述第一卷积模块对所述每个中间输入图像进行卷积处理,以得到第一卷积特征图组;
    使用所述第一下采样模块对所述第一卷积特征图组进行下采样处理,以得到第一下采样特征图组;
    使用所述第二卷积模块对所述第一下采样特征图组进行卷积处理,以得到第二卷积特征图组;
    使用所述第二下采样模块对所述第二卷积特征图组进行下采样处理,以得到第二下采样特征图组;
    使用所述第三卷积模块对所述第二下采样特征图组进行卷积处理,以得到第三卷积特征图组;
    使用所述第三下采样模块对所述第三卷积特征图组进行下采样处理,以得到第三下采样特征图组,且使用所述第一降维模块对所述第三卷积特征图组进行降维处理,以得到第一降维特征图组;
    使用所述第四卷积模块对所述第三下采样特征图组进行卷积处理,以得到第四卷积特征图组;
    使用所述第四下采样模块对所述第四卷积特征图组进行下采样处理,以得到第四下采样特征图组,且使用所述第二降维模块对所述第四卷积特征图组进行降维处理,以得到第二降维特征图组;
    使用所述第五卷积模块对所述第四下采样特征图组进行卷积处理,以得到第五卷积特征图组;
    使用所述第五下采样模块对所述第五卷积特征图组进行下采样处理,以得到第五下采样特征图组,且使用所述第三降维模块对所述第五卷积特征图组进行降维处理,以得到第三降维特征图组;
    使用所述全连接模块对所述第五下采样特征图组进行卷积处理,以得到第六卷积特征图组;
    使用所述第四降维模块对所述第六卷积特征图组进行降维处理,以得到第四降维特征图组;
    使用所述第一上采样模块对所述第四降维特征图组进行上采样处理,以得到第一上采样特征图组;
    对所述第一上采样特征图组和所述第三降维特征图组进行融合处理,以得到第一融合特征图组;
    使用所述第二上采样模块对所述第一融合特征图组进行上采样处理,以得到第二上采样特征图组;
    对所述第二上采样特征图组和所述第二降维特征图组进行融合处理,以得到第二融合特征图组;
    使用所述第三上采样模块对所述第二融合特征图组进行上采样处理,以得到第三上采样特征图组;
    对所述第三上采样特征图组和所述第一降维特征图组进行融合处理,以得到第三融合特征图组;
    使用所述分类器对所述第三融合特征图组进行分类处理,以得到文本分类预测图和连接分类预测图;
    根据所述连接分类预测图和所述文本分类预测图,以确定所述文本检测区域组。
  21. 根据权利要求20所述的文字识别方法,其中,所述第一卷积特征图组中的特征图的数量为8,所述第二卷积特征图组中的特征图的数量为16,所述第三卷积特征图组中的特征图的数量为32,所述第四卷积特征图组中的特征图的数量为64,所述第五卷积特征图组中的特征图的数量为128,所述第六卷积特征图组中的特征图的数量为256,
    所述第一降维特征图组中的特征图的数量为10,所述第二降维特征图组中的特征图的数量为10,所述第三降维特征图组中的特征图的数量为10,所述第四降维特征图组中的特征图的数量为10。
  22. 根据权利要求19所述的文字识别方法,其中,所述文本检测神经网络包括第一卷积模块至第五卷积模块、第一下采样模块至第五下采样模块、全连接模块、第一上采样模块至第三上采样模块、第一降维模块至第五降维模块和分类器,
    利用所述文本检测神经网络对所述每个中间输入图像进行文本检测,以确定所述每个中间输入图像对应的文本检测区域组包括:
    使用所述第一卷积模块对所述输入图像进行卷积处理,以得到第一卷积特征图组;
    使用所述第一下采样模块对所述第一卷积特征图组进行下采样处理,以得到第一下采样特征图组;
    使用所述第二卷积模块对所述第一下采样特征图组进行卷积处理,以得到 第二卷积特征图组;
    使用所述第二下采样模块对所述第二卷积特征图组进行下采样处理,以得到第二下采样特征图组,且使用所述第一降维模块对所述第二卷积特征图组进行降维处理,以得到第一降维特征图组;
    使用所述第三卷积模块对所述第二下采样特征图组进行卷积处理,以得到第三卷积特征图组;
    使用所述第三下采样模块对所述第三卷积特征图组进行下采样处理,以得到第三下采样特征图组,且使用所述第二降维模块对所述第三卷积特征图组进行降维处理,以得到第二降维特征图组;
    使用所述第四卷积模块对所述第三下采样特征图组进行卷积处理,以得到第四卷积特征图组;
    使用所述第四下采样模块对所述第四卷积特征图组进行下采样处理,以得到第四下采样特征图组,且使用所述第三降维模块对所述第四卷积特征图组进行降维处理,以得到第三降维特征图组;
    使用所述第五卷积模块对所述第四下采样特征图组进行卷积处理,以得到第五卷积特征图组;
    使用所述第五下采样模块对所述第五卷积特征图组进行下采样处理,以得到第五下采样特征图组,且使用所述第四降维模块对所述第五卷积特征图组进行降维处理,以得到第四降维特征图组;
    使用所述全连接模块对所述第五下采样特征图组进行卷积处理,以得到第六卷积特征图组;
    使用所述第五降维模块对所述第六卷积特征图组进行降维处理,以得到第五降维特征图组;
    对所述第四降维特征图组和所述第五降维特征图组进行融合处理,以得到第一融合特征图组;
    使用所述第一上采样模块对所述第一融合特征图组进行上采样处理,以得到第一上采样特征图组;
    对所述第一上采样特征图组和所述第三降维特征图组进行融合处理,以得到第二融合特征图组;
    使用所述第二上采样模块对所述第二融合特征图组进行上采样处理,以得到第二上采样特征图组;
    对所述第二上采样特征图组和所述第二降维特征图组进行融合处理,以得到第三融合特征图组;
    使用所述第三上采样模块对所述第三融合特征图组进行上采样处理,以得到第三上采样特征图组;
    对所述第三上采样特征图组和所述第一降维特征图组进行融合处理,以得到第四融合特征图组;
    使用所述分类器对所述第四融合特征图组进行分类处理,以得到文本分类预测图和连接分类预测图;
    根据所述连接分类预测图和所述文本分类预测图,以确定所述文本检测区域组。
  23. 根据权利要求22所述的文字识别方法,其中,所述第一卷积特征图组中的特征图的数量为64,所述第二卷积特征图组中的特征图的数量为128,所述第三卷积特征图组中的特征图的数量为256,所述第四卷积特征图组中的特征图的数量为512,所述第五卷积特征图组中的特征图的数量为512,所述第六卷积特征图组中的特征图的数量为512,
    所述第一降维特征图组至所述第五降维特征图组每个中的特征图的数量为18。
  24. 根据权利要求19-23任一项所述的文字识别方法,其中,在获取所述输入图像之前,所述文字识别方法还包括:训练待训练文本检测神经网络,以得到所述文本检测神经网络,
    训练待训练文本检测神经网络,以得到所述文本检测神经网络包括:
    获取训练输入图像和目标文本检测区域组;
    利用所述待训练文本检测神经网络对所述训练输入图像进行处理,以得到训练文本检测区域组;
    根据所述目标文本检测区域组和所述训练文本检测区域组,通过损失函数计算所述待训练文本检测神经网络的损失值;
    根据所述损失值对所述待训练文本检测神经网络的参数进行修正,在所述损失函数满足预定条件时,得到训练好的所述文本检测神经网络,在所述损失函数不满足所述预定条件时,继续输入所述训练输入图像和所述目标文本检测区域组以重复执行上述训练过程。
  25. 根据权利要求24所述的文字识别方法,其中,所述损失函数包括焦 点损失函数。
  26. 根据权利要求1-25任一项所述的文字识别方法,其中,从所述至少一个文本框中确定目标文本框包括:
    确定点译笔的笔尖的位置;
    基于所述笔尖的位置,在所述输入图像中标注出待检测区域;
    确定所述待检测区域分别与所述至少一个文本框之间的至少一个重叠区域;
    确定所述至少一个重叠区域中的最大重叠区域对应的文本框作为所述目标文本框。
  27. 根据权利要求1-26任一项所述的文字识别方法,其中,对所述最终目标文本框进行识别,以得到所述目标文本包括:
    利用所述文本识别神经网络对所述最终目标文本框进行识别处理,以得到中间文本;
    对所述中间文本进行校验,以得到所述目标文本。
  28. 根据权利要求27所述的文字识别方法,其中,所述文本识别神经网络为多目标纠正注意网络。
  29. 根据权利要求1-28任一项所述的文字识别方法,还包括:
    对所述目标文本进行翻译,以得到并输出所述目标文本的翻译结果。
  30. 一种文字识别方法,包括:
    获取输入图像;
    利用文本检测神经网络对所述输入图像进行文本检测,以确定文本框组,其中,所述文本框组包括至少一个文本框;
    从所述至少一个文本框中确定目标文本框,其中,所述目标文本框包括目标文本;
    旋转所述目标文本框以得到最终目标文本框;
    对所述最终目标文本框进行识别,以得到所述目标文本,
    其中,所述文本检测神经网络包括第一卷积模块至第五卷积模块和第一降维模块至第四降维模块,
    所述第一卷积模块中的每个卷积层中的卷积核的数量为8,所述第二卷积模块中的每个卷积层中的卷积核的数量为16,所述第三卷积模块中的每个卷积层中的卷积核的数量为32,所述第四卷积模块中的每个卷积层中的卷积核的数 量为64,所述第五卷积模块中的每个卷积层中的卷积核的数量为128,
    所述第一降维模块中的每个卷积层中的卷积核的数量为10,所述第二降维模块中的每个卷积层中的卷积核的数量为10,所述第三降维模块中的每个卷积层中的卷积核的数量为10,所述第四降维模块中的每个卷积层中的卷积核的数量为10。
  31. 根据权利要求30所述的文字识别方法,其中,利用所述文本检测神经网络对所述输入图像进行文本检测,以确定文本框组,包括:
    对所述输入图像进行尺度变换处理,以得到多个中间输入图像,其中,所述多个中间输入图像包括所述输入图像,且所述多个中间输入图像的尺寸彼此不相同;
    对于所述多个中间输入图像中的每个中间输入图像,利用所述文本检测神经网络对所述每个中间输入图像进行文本检测,以得到所述每个中间输入图像对应的中间文本框组,从而得到所述多个中间输入图像对应的多个中间文本框组,其中,每个所述中间文本框组包括至少一个中间文本框;
    根据所述多个中间文本框组,确定所述文本框组。
  32. 根据权利要求31所述的文字识别方法,其中,所述至少一个中间文本框与所述至少一个文本框一一对应,
    每个所述中间文本框组包括第i中间文本框,所述文本框组包括第i文本框,所述第i中间文本框与所述第i文本框对应,i大于等于1且小于等于每个所述中间文本框组中的中间文本框的数量,
    根据所述多个中间文本框组,确定所述文本框组包括:
    对于所述第i文本框,根据所述多个中间文本框组的多个第i中间文本框对应的坐标组,确定所述第i文本框的坐标组,从而确定所述文本框组。
  33. 根据权利要求31或32所述的文字识别方法,其中,利用所述文本检测神经网络对所述每个中间输入图像进行文本检测,以得到所述每个中间输入图像对应的中间文本框组,包括:
    利用所述文本检测神经网络对所述每个中间输入图像进行文本检测,以确定所述每个中间输入图像对应的文本检测区域组;
    利用最小外接矩形算法对所述文本检测区域组进行处理,以确定所述中间文本框组,其中,所述文本检测区域组包括至少一个文本检测区域,所述至少一个文本检测区域与所述至少一个中间文本框一一对应,且每个所述中间文本 框覆盖对应的文本检测区域。
  34. 根据权利要求33所述的文字识别方法,其中,所述文本检测神经网络还包括第一下采样模块至第五下采样模块、全连接模块、第一上采样模块至第三上采样模块和分类器,
    利用所述文本检测神经网络对所述每个中间输入图像进行文本检测,以确定所述每个中间输入图像对应的所述文本检测区域组,包括:
    使用所述第一卷积模块对所述每个中间输入图像进行卷积处理,以得到第一卷积特征图组;
    使用所述第一下采样模块对所述第一卷积特征图组进行下采样处理,以得到第一下采样特征图组;
    使用所述第二卷积模块对所述第一下采样特征图组进行卷积处理,以得到第二卷积特征图组;
    使用所述第二下采样模块对所述第二卷积特征图组进行下采样处理,以得到第二下采样特征图组;
    使用所述第三卷积模块对所述第二下采样特征图组进行卷积处理,以得到第三卷积特征图组;
    使用所述第三下采样模块对所述第三卷积特征图组进行下采样处理,以得到第三下采样特征图组,且使用所述第一降维模块对所述第三卷积特征图组进行降维处理,以得到第一降维特征图组;
    使用所述第四卷积模块对所述第三下采样特征图组进行卷积处理,以得到第四卷积特征图组;
    使用所述第四下采样模块对所述第四卷积特征图组进行下采样处理,以得到第四下采样特征图组,且使用所述第二降维模块对所述第四卷积特征图组进行降维处理,以得到第二降维特征图组;
    使用所述第五卷积模块对所述第四下采样特征图组进行卷积处理,以得到第五卷积特征图组;
    使用所述第五下采样模块对所述第五卷积特征图组进行下采样处理,以得到第五下采样特征图组,且使用所述第三降维模块对所述第五卷积特征图组进行降维处理,以得到第三降维特征图组;
    使用所述全连接模块对所述第五下采样特征图组进行卷积处理,以得到第六卷积特征图组;
    使用所述第四降维模块对所述第六卷积特征图组进行降维处理,以得到第四降维特征图组;
    使用所述第一上采样模块对所述第四降维特征图组进行上采样处理,以得到第一上采样特征图组;
    对所述第一上采样特征图组和所述第三降维特征图组进行融合处理,以得到第一融合特征图组;
    使用所述第二上采样模块对所述第一融合特征图组进行上采样处理,以得到第二上采样特征图组;
    对所述第二上采样特征图组和所述第二降维特征图组进行融合处理,以得到第二融合特征图组;
    使用所述第三上采样模块对所述第二融合特征图组进行上采样处理,以得到第三上采样特征图组;
    对所述第三上采样特征图组和所述第一降维特征图组进行融合处理,以得到第三融合特征图组;
    使用所述分类器对所述第三融合特征图组进行分类处理,以得到文本分类预测图和连接分类预测图;
    根据所述连接分类预测图和所述文本分类预测图,以确定所述文本检测区域组。
  35. 根据权利要求34所述的文字识别方法,其中,所述第一卷积特征图组中的特征图的数量为8,所述第二卷积特征图组中的特征图的数量为16,所述第三卷积特征图组中的特征图的数量为32,所述第四卷积特征图组中的特征图的数量为64,所述第五卷积特征图组中的特征图的数量为128,所述第六卷积特征图组中的特征图的数量为256,
    所述第一降维特征图组中的特征图的数量为10,所述第二降维特征图组中的特征图的数量为10,所述第三降维特征图组中的特征图的数量为10,所述第四降维特征图组中的特征图的数量为10。
  36. 根据权利要求30-35任一项所述的文字识别方法,其中,在获取所述输入图像之前,所述文字识别方法还包括:训练待训练文本检测神经网络,以得到所述文本检测神经网络,
    训练待训练文本检测神经网络,以得到所述文本检测神经网络包括:
    获取训练输入图像和目标文本检测区域组;
    利用所述待训练文本检测神经网络对所述训练输入图像进行处理,以得到训练文本检测区域组;
    根据所述目标文本检测区域组和所述训练文本检测区域组,通过损失函数计算所述待训练文本检测神经网络的损失值;
    根据所述损失值对所述待训练文本检测神经网络的参数进行修正,在所述损失函数满足预定条件时,得到训练好的所述文本检测神经网络,在所述损失函数不满足所述预定条件时,继续输入所述训练输入图像和所述目标文本检测区域组以重复执行上述训练过程。
  37. 根据权利要求36所述的文字识别方法,其中,所述损失函数包括焦点损失函数。
  38. 一种文字识别装置,包括:
    图像采集装置,用于获取输入图像;
    存储器,用于存储所述输入图像以及计算机可读指令;
    处理器,用于读取所述输入图像,并运行所述计算机可读指令,所述计算机可读指令被所述处理器运行时执行根据权利要求1-37任一项所述的文字识别方法。
  39. 根据权利要求38所述的文字识别装置,还包括点译笔,
    其中,所述图像采集装置设置在所述点译笔上,所述点译笔用于选择所述目标文本。
  40. 一种存储介质,非暂时性地存储计算机可读指令,其中,当所述计算机可读指令由计算机执行时可以执行根据权利要求1-37任一项所述的文字识别方法。
PCT/CN2020/073576 2020-01-21 2020-01-21 文字识别方法、文字识别装置和存储介质 WO2021146937A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/CN2020/073576 WO2021146937A1 (zh) 2020-01-21 2020-01-21 文字识别方法、文字识别装置和存储介质
CN202080000058.XA CN113498520B (zh) 2020-01-21 2020-01-21 文字识别方法、文字识别装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2020/073576 WO2021146937A1 (zh) 2020-01-21 2020-01-21 文字识别方法、文字识别装置和存储介质

Publications (1)

Publication Number Publication Date
WO2021146937A1 true WO2021146937A1 (zh) 2021-07-29

Family

ID=76992750

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/073576 WO2021146937A1 (zh) 2020-01-21 2020-01-21 文字识别方法、文字识别装置和存储介质

Country Status (2)

Country Link
CN (1) CN113498520B (zh)
WO (1) WO2021146937A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627427A (zh) * 2021-08-04 2021-11-09 中国兵器装备集团自动化研究所有限公司 一种基于图像检测技术的仪器仪表读数方法及系统
CN114757304A (zh) * 2022-06-10 2022-07-15 北京芯盾时代科技有限公司 一种数据识别方法、装置、设备及存储介质
CN116740721A (zh) * 2023-08-15 2023-09-12 深圳市玩瞳科技有限公司 手指查句方法、装置、电子设备及计算机存储介质
CN117809318A (zh) * 2024-03-01 2024-04-02 微山同在电子信息科技有限公司 基于机器视觉的甲骨文识别方法及其系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116958981B (zh) * 2023-05-31 2024-04-30 广东南方网络信息科技有限公司 一种文字识别方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720316B2 (en) * 2006-09-05 2010-05-18 Microsoft Corporation Constraint-based correction of handwriting recognition errors
CN110490198A (zh) * 2019-08-12 2019-11-22 上海眼控科技股份有限公司 文本方向校正方法、装置、计算机设备和存储介质
CN110659633A (zh) * 2019-08-15 2020-01-07 坎德拉(深圳)科技创新有限公司 图像文本信息的识别方法、装置以及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016004330A1 (en) * 2014-07-03 2016-01-07 Oim Squared Inc. Interactive content generation
CN109635805B (zh) * 2018-12-11 2022-01-11 上海智臻智能网络科技股份有限公司 图像文本定位方法及装置、图像文本识别方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720316B2 (en) * 2006-09-05 2010-05-18 Microsoft Corporation Constraint-based correction of handwriting recognition errors
CN110490198A (zh) * 2019-08-12 2019-11-22 上海眼控科技股份有限公司 文本方向校正方法、装置、计算机设备和存储介质
CN110659633A (zh) * 2019-08-15 2020-01-07 坎德拉(深圳)科技创新有限公司 图像文本信息的识别方法、装置以及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627427A (zh) * 2021-08-04 2021-11-09 中国兵器装备集团自动化研究所有限公司 一种基于图像检测技术的仪器仪表读数方法及系统
CN113627427B (zh) * 2021-08-04 2023-09-22 中国兵器装备集团自动化研究所有限公司 一种基于图像检测技术的仪器仪表读数方法及系统
CN114757304A (zh) * 2022-06-10 2022-07-15 北京芯盾时代科技有限公司 一种数据识别方法、装置、设备及存储介质
CN116740721A (zh) * 2023-08-15 2023-09-12 深圳市玩瞳科技有限公司 手指查句方法、装置、电子设备及计算机存储介质
CN116740721B (zh) * 2023-08-15 2023-11-17 深圳市玩瞳科技有限公司 手指查句方法、装置、电子设备及计算机存储介质
CN117809318A (zh) * 2024-03-01 2024-04-02 微山同在电子信息科技有限公司 基于机器视觉的甲骨文识别方法及其系统
CN117809318B (zh) * 2024-03-01 2024-05-28 微山同在电子信息科技有限公司 基于机器视觉的甲骨文识别方法及其系统

Also Published As

Publication number Publication date
CN113498520A (zh) 2021-10-12
CN113498520B (zh) 2024-05-17

Similar Documents

Publication Publication Date Title
WO2021146937A1 (zh) 文字识别方法、文字识别装置和存储介质
CN111210443B (zh) 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
CN108427924B (zh) 一种基于旋转敏感特征的文本回归检测方法
WO2021073493A1 (zh) 图像处理方法及装置、神经网络的训练方法、合并神经网络模型的图像处理方法、合并神经网络模型的构建方法、神经网络处理器及存储介质
CN108830855B (zh) 一种基于多尺度低层特征融合的全卷积网络语义分割方法
WO2020200030A1 (zh) 神经网络的训练方法、图像处理方法、图像处理装置和存储介质
CN109241982B (zh) 基于深浅层卷积神经网络的目标检测方法
WO2018145470A1 (zh) 一种图像检测方法和装置
CN107358260B (zh) 一种基于表面波cnn的多光谱图像分类方法
WO2020108009A1 (en) Method, system, and computer-readable medium for improving quality of low-light images
CN109117846B (zh) 一种图像处理方法、装置、电子设备和计算机可读介质
WO2021146951A1 (zh) 文本检测方法及装置、存储介质
CN109948566B (zh) 一种基于权重融合与特征选择的双流人脸反欺诈检测方法
AU2020101435A4 (en) A panoramic vision system based on the uav platform
WO2020093782A1 (en) Method, system, and computer-readable medium for improving quality of low-light images
CN110909724B (zh) 一种多目标图像的缩略图生成方法
WO2020048359A1 (en) Method, system, and computer-readable medium for improving quality of low-light images
CN110633640A (zh) 优化PointNet对于复杂场景的识别方法
CN116385707A (zh) 基于多尺度特征与特征增强的深度学习场景识别方法
CN110517270A (zh) 一种基于超像素深度网络的室内场景语义分割方法
CN112348056A (zh) 点云数据分类方法、装置、设备及可读存储介质
WO2022063321A1 (zh) 图像处理方法、装置、设备及存储介质
CN114830168A (zh) 图像重建方法、电子设备和计算机可读存储介质
CN115482529A (zh) 近景色水果图像识别方法、设备、存储介质及装置
WO2019071476A1 (zh) 一种基于智能终端的快递信息录入方法及录入系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20914951

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20914951

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 20914951

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 27.03.2023)

122 Ep: pct application non-entry in european phase

Ref document number: 20914951

Country of ref document: EP

Kind code of ref document: A1