WO2021049070A1 - 文字候補提案装置、手書文字識別システム、手書文字識別方法およびプログラム - Google Patents

文字候補提案装置、手書文字識別システム、手書文字識別方法およびプログラム Download PDF

Info

Publication number
WO2021049070A1
WO2021049070A1 PCT/JP2020/011553 JP2020011553W WO2021049070A1 WO 2021049070 A1 WO2021049070 A1 WO 2021049070A1 JP 2020011553 W JP2020011553 W JP 2020011553W WO 2021049070 A1 WO2021049070 A1 WO 2021049070A1
Authority
WO
WIPO (PCT)
Prior art keywords
character
candidate
similar
characters
processing unit
Prior art date
Application number
PCT/JP2020/011553
Other languages
English (en)
French (fr)
Inventor
淳 北見
Original Assignee
株式会社日立システムズ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立システムズ filed Critical 株式会社日立システムズ
Priority to KR1020227038076A priority Critical patent/KR102572500B1/ko
Priority to KR1020217000508A priority patent/KR102465524B1/ko
Priority to CN202080003974.9A priority patent/CN112789624A/zh
Publication of WO2021049070A1 publication Critical patent/WO2021049070A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet

Definitions

  • the present invention relates to a character candidate proposal device, a handwritten character identification system, a handwritten character identification method, and a program.
  • the present invention claims the priority of application number 2019-163641 of the Japanese patent filed on September 9, 2019, and for designated countries that are permitted to be incorporated by reference to the literature, the contents described in the application are as follows. Incorporated into this application by reference.
  • the information processing device has a character extraction unit 224 that extracts a character string from image data, and a list creation unit that creates a conversion candidate list including one or more conversion candidate characters corresponding to input characters. 244, the specific unit 248 that identifies the conversion destination character based on the comparison between the one or more conversion candidate characters included in the conversion candidate list and the character string extracted by the character extraction unit, and It includes a display control unit 252 that generates a display screen including the characters of the conversion destination specified by the specific unit.
  • An object of the present invention is to provide a technique for more appropriately proposing similar character string candidates.
  • the present application includes a plurality of means for solving at least a part of the above problems, and examples thereof are as follows.
  • the information processing apparatus receives a similar character storage unit that stores similar relationships in the appearance of characters, an existing character storage unit that stores an existing character string, and one or more characters.
  • the consignment processing unit that accepts the idea of character candidates with similar character appearances and the received character candidates that have similar appearances to the characters are identified by collating with the similar character storage unit, and the appearances are similar.
  • the character candidate proposal device when the character candidate proposal device receives a character similar to any of the characters received by the contract processing unit after outputting the candidate character, it has a similar relationship that is not stored in the similar character storage unit. If there is, it may be provided with a similar character registration processing unit which is stored in the similar character storage unit.
  • the character string of the existing person's name is divided into a surname and a given name
  • the received character is divided into a surname and a given name and collated with the collation processing unit. It may be provided with a first and last name discrimination processing unit.
  • the first and last name determination processing unit specifies a combination of the received characters by changing the position of separating the first and last names to separate the first and last names, and specifies the combination of the first and last names of each combination.
  • Both the name and the name may be characterized in that, when a hit is obtained as a result of collation by the collation processing unit, the candidate character is used.
  • the character candidate proposal device may be characterized in that the candidate character transmission processing unit outputs the candidate characters in an aligned manner according to the frequency of appearance.
  • the character candidate proposal device may be characterized in that the character received by the contract processing unit is a character recognized by reading a handwritten character.
  • the character candidate proposing device includes a similar character storage unit that stores similar relationships in the appearance of characters, an existing character storage unit that stores an existing character string, and an appearance of the character by receiving one or more characters.
  • the consignment processing unit that accepts the proposal of similar character candidates and the character candidates that are similar in appearance to the received characters are identified by collating with the similar character storage unit, and the characters having similar appearances are identified.
  • the candidate character is a combination of a collation processing unit that collates with the existing character string stored in the existing character storage unit and a character candidate combination that is hit as a result of collation by the collation processing unit and has a similar appearance. It is characterized in that it includes a candidate character transmission processing unit that outputs as.
  • the handwritten character identification method includes a character candidate proposal device, a business terminal that is communicably connected to the character candidate proposal device via a network, and an instruction from the business terminal. It is a handwritten character identification method by a handwritten character identification system including a reading device that reads the handwritten characters accordingly, and the business terminal acquires the handwritten characters from the reading device and performs character recognition.
  • the confirmation processing step and the character candidate proposal device include one or more similar character storage units that store similar relationships in character appearance and existing character storage units that store existing character strings.
  • the collation processing step of specifying and collating with the existing character string stored in the existing character storage unit, and the appearance hit as a result of collation by the collation processing step It is characterized by executing a candidate character transmission processing step that outputs a combination of similar character candidates as a candidate character.
  • FIG. 1 is a block diagram illustrating an outline of the handwritten character identification system according to the present embodiment.
  • the handwritten character identification system 1 is used by a user connecting to a character candidate proposal device 100 via a browser or the like using a business terminal 200, but the present invention is not limited to this, and each function of the character candidate proposal device 100 is an application. It may be installed in the business terminal 200 as software.
  • a LAN Local Area Network
  • a WAN Wide Area Network
  • the Internet a mobile phone network, etc.
  • a network 50 which is a combined communication network thereof.
  • the network may be a VPN (Virtual Private Network) or the like on a wireless communication network such as a mobile phone communication network.
  • the handwritten character identification system 1 manually inputs a name in a predetermined document (for example, an insurance application form, a bank account opening application form, etc.) according to a predetermined format.
  • a predetermined document for example, an insurance application form, a bank account opening application form, etc.
  • business systems, etc. that involve the handling of documents).
  • the read characters include misreading, for example, if the correct surname "Kawamoto” is misread as “Ogi” by a character recognition engine such as OCR, the wrong "Ogi” is collated with each database. Therefore, there is a possibility that the candidate ranking of "Kawamoto", which is positive, is subordinated or the candidate is omitted.
  • the business terminal 200 is a terminal used for the business of digitizing such a predetermined document.
  • the reading device 300 is a scanner, an imaging device, or the like, and reads a predetermined document as an image or the like in response to an instruction from the business terminal 200, and delivers the read handwritten character image to the business terminal 200.
  • the business terminal 200 when the business terminal 200 receives the handwritten character image, it is digitized by OCR, converted into character string information, and the converted character string is transmitted to the character candidate proposal device 100 to be transmitted from the character candidate proposal device 100. Receive the devised candidate character. Then, the business terminal 200 selectively displays the candidate characters and uses the candidate characters selected by the user as digitized information.
  • the reading device 300 is not limited to the scanner, and may be a device capable of reading an image as data such as a mobile phone terminal with a camera or a tablet terminal with a camera, and the business terminal 200 may be used via the network 50. It may be configured to be connected so as to be able to communicate with.
  • the reading device 300 is not an indispensable device, and the character candidate proposal device 100 or the business terminal 200 receives image data already read from another device or data for which character recognition has been performed from another device via the network 50, and obtains character candidates. It may be a suggestion.
  • FIG. 2 is a diagram showing an example of the configuration of the handwritten character identification system.
  • the storage unit 110, the processing unit 120, and the communication unit 130 are connected to each other so as to be able to communicate with each other by a bus or the like.
  • the storage unit 110 includes a received data storage unit 111, an existing character storage unit 112, a similar character storage unit 115, and a candidate character storage unit 116.
  • the existing character storage unit 112 stores a character string such as an existing person's name or a proper noun.
  • the existing character storage unit 112 includes a surname storage unit 113 and a name storage unit 114. For example, it is said that there are more than 300,000 types of Japanese surnames, and the surnames whose existence has been confirmed are stored in the surname storage unit 113.
  • FIG. 3 is a diagram showing an example of the data structure of the received data storage unit.
  • the received data storage unit 111 includes a consignment date 111A, a requesting company ID 111B, a document number 111C, a character identification number 111D, and a recognition character code 111E.
  • the consignment date 111A is information for specifying the date on which the request for the character candidate proposal is consigned from the business terminal 200.
  • the requesting company ID 111B is information that identifies the company that requested the character candidate proposal.
  • the document number 111C is information for specifying the document (image data of the document) for which the character candidate proposal is requested.
  • the character identification number 111D is information for identifying individual characters included in the document to be recognized.
  • the recognition character code 111E is a character code of a character obtained as a result of recognizing each character from the appearance.
  • FIG. 4 is a diagram showing an example of the data structure of the surname storage unit.
  • the surname storage unit 113 includes a surname identifier 113A, a surname 113B, a number of characters 113C, and an appearance frequency 113D.
  • the surname identifier 113A is information that identifies the surname from other surnames.
  • the surname 113B is notation information of the surname.
  • the number of characters 113C is the number of characters in the notation of the surname.
  • the appearance frequency 113D is the appearance frequency in the whole surname.
  • FIG. 5 is a diagram showing an example of the data structure of the name storage unit.
  • the name storage unit 114 includes a name identifier 114A, a name 114B, a number of characters 114C, and an appearance frequency 114D.
  • the name identifier 114A is information that identifies the name from other names.
  • the name 114B is notation information of the name.
  • the number of characters 114C is the number of characters in the notation of the name.
  • the frequency of appearance 114D is the frequency of appearance in the whole name.
  • FIG. 6 is a diagram showing an example of a data structure of a similar character storage unit.
  • the similar character storage unit 115 includes a character code 115A, a similar character code 115B, an appearance frequency 115C, and a storage date 115D.
  • the character code 115A is a reference character code among the characters having a similar relationship with each other.
  • the similar character code 115B is a character code that is similar in appearance to the character specified by the character code 115A.
  • the frequency of appearance 115C is the frequency of appearance as a similar relationship in the use of characters.
  • the storage date 115D is information that identifies the date stored as a similarity relationship.
  • FIG. 7 is a diagram showing an example of a data structure of the candidate character storage unit.
  • the candidate character storage unit 116 includes a character identification number 116A and a candidate character code 116B.
  • the character identification number 116A is information for identifying individual characters included in the document to be recognized.
  • the candidate character code 116B is a character candidate different from the character recognized by OCR, and is a code of a similar and existing character.
  • the processing unit 120 includes a contract processing unit 121, a first and last name determination processing unit 122, a collation processing unit 123, a similar character registration processing unit 124, and a candidate character transmission processing unit 125.
  • the contract processing unit 121 accepts a request for proposal of a character candidate from the business terminal 200.
  • the first and last name determination processing unit 122 identifies the combination of the first and last name separated by changing the division position of the first and last name character by character, and determines whether or not it is established as the first and last name. To do.
  • the collation processing unit 123 collates with the existing character storage unit 112 to determine whether or not it is an existing character candidate.
  • the similar character registration processing unit 124 registers the characters reported from the business terminal 200 as an unregistered similar relationship in the similar character storage unit 115.
  • the candidate character transmission processing unit 125 outputs a combination of character candidates having similar appearances as a result of matching by the matching processing unit 123 as candidate characters. Specifically, the candidate character transmission processing unit 125 realizes the idea by outputting (transmitting) the candidate stored in the candidate character storage unit 116 to the business terminal 200.
  • the communication unit 130 communicates with another device via the network 50.
  • the storage unit 210, the processing unit 220, and the communication unit 230 are connected to each other so as to be able to communicate with each other by a bus or the like.
  • the storage unit 210 includes a character storage unit 211, a candidate character storage unit 212, and an image storage unit 213.
  • FIG. 8 is a diagram showing an example of the data structure of the character storage unit.
  • the character storage unit 211 includes an image data number 211A, a reading date 211B, a character identification number 211C, and an image 211D.
  • the image data number 211A is information for identifying the image of the character string read by the reading device 300.
  • the reading date 211B is information for specifying the date on which the reading device 300 reads the document.
  • the character identification number 211C is information for identifying individual characters included in the document to be recognized.
  • the image 211D is information for identifying the image data (a part of the image read by the reading device 300) of the character alone specified by the character identification number 211C.
  • FIG. 9 is a diagram showing an example of a data structure of the image storage unit.
  • the image storage unit 213 includes an image data number 213A, a document number 213B, a reading date 213C, and an image 213D.
  • the image data number 213A is information for identifying the image of the character string read by the reading device 300.
  • the document number 213B is information for specifying the document (image data of the document) for which the character candidate proposal is requested.
  • the reading date 213C is information for specifying the date on which the reading device 300 reads the document.
  • the image 213D is information for identifying the image read by the reading device 300.
  • the processing unit 220 includes a character recognition unit 221, a consignment processing unit 222, a visual confirmation processing unit 223, and a similar character reporting processing unit 224.
  • the character recognition unit 221 is a so-called OCR engine, analyzes a handwritten character image acquired from the reading device 300, and recognizes characters.
  • the consignment processing unit 222 entrusts the character candidate proposal device 100 with highly accurate candidate character proposals in order to eliminate rework and procedural errors caused by misreading by the character recognition unit 221.
  • the visual confirmation processing unit 223 selectively displays each of the character candidates output from the character candidate proposal device 100 so that it can be visually confirmed, and accepts the selection of any of the candidates from the user.
  • the similar character report processing unit 224 accepts the input of a character recognized by the user as a similar character, and reports that the character candidate proposal device 100 registers the character as a similar character.
  • the communication unit 230 communicates with other devices via the network 50.
  • the business terminal 200 includes an input unit that accepts input from the user and an output unit that outputs various output information such as a screen and a form.
  • the input unit accepts various contact inputs such as typing, touch, and flick input, or various inputs such as voice input and line-of-sight input.
  • FIG. 10 is a diagram showing a hardware configuration example of the character candidate proposal device 100.
  • the character candidate proposal device 100 includes a hardware configuration realized by a housing of a so-called server device, workstation, personal computer, smartphone or tablet terminal.
  • the character candidate proposal device 100 includes an arithmetic unit 101, a main storage device 102, an auxiliary storage device 103, a communication device 104, and a bus 107 connecting each device.
  • the business terminal 200 includes input / output devices such as a touch panel, a keyboard, a microphone, and a display.
  • the arithmetic unit 101 is, for example, an arithmetic unit such as a CPU (Central Processing Unit).
  • a CPU Central Processing Unit
  • the main storage device 102 is, for example, a memory device such as a RAM (Random Access Memory).
  • the auxiliary storage device 103 is a non-volatile storage device such as a so-called hard disk (Hard Disk Drive), SSD (Solid State Drive), or flash memory that can store digital information.
  • a hard disk Hard Disk Drive
  • SSD Solid State Drive
  • flash memory that can store digital information.
  • the communication device 104 is a wired communication device such as a network card or a wireless communication device.
  • the contract processing unit 121, the first and last name determination processing unit 122, the collation processing unit 123, the similar character registration processing unit 124, and the candidate character transmission processing unit 125 of the character candidate proposal device 100 described above process the arithmetic unit 101. It is realized by the program to be done. This program is stored in the main storage device 102, the auxiliary storage device 103, or a ROM device (not shown), is loaded on the main storage device 102 for execution, and is executed by the arithmetic unit 101.
  • the storage unit 110 of the character candidate proposal device 100 is realized by the main storage device 102 and the auxiliary storage device 103. Further, the communication unit 130 is realized by the communication device 104.
  • the above is a hardware configuration example of the character candidate proposal device 100.
  • the configuration of the character candidate proposal device 100 can be further classified into more components according to the processing content. It can also be categorized so that one component performs more processing.
  • each processing unit (consignment processing unit 121, first and last name determination processing unit 122, collation processing unit 123, similar character registration processing unit 124, and candidate character transmission processing unit 125) is dedicated to realizing each function. It may be built by hardware (ASIC, GPU, etc.). Further, the processing of each processing unit may be executed by one hardware or may be executed by a plurality of hardware.
  • FIG. 11 is a diagram showing an example of the overall processing flow of handwritten character recognition.
  • the handwriting character recognition process is activated when the user instructs the business terminal 200 to start the handwriting character recognition process.
  • the business terminal 200 requests the reading device 300 to read the image data of the document (step S10). Specifically, the character recognition unit 221 instructs the reading device 300 to start scanning or shooting.
  • the reading device 300 receives a request from the business terminal 200, reads an image of the document, creates image data, and responds to the business terminal 200 (step S11).
  • the character recognition unit 221 of the business terminal 200 receives the image data from the reading device 300, stores it in the image storage unit 213, and executes the character recognition process by the OCR engine (step S12). Then, the recognized character data is stored in the character storage unit 211 (step S13). It should be noted that this OCR engine is mounted on a PC terminal, a server terminal, etc. located on a network to which the business terminal 200 can be connected, and is executed by instructing the character recognition process from the business terminal 200. Good.
  • the consignment processing unit 222 transmits the recognized character to the character candidate proposal device 100, and consigns the character candidate proposal processing (step S14).
  • the consignment processing unit 121 of the character candidate proposal device 100 receives the characters recognized from the business terminal 200 and stores them in the received data storage unit 111 (step S15).
  • the collation processing unit 123 collates the received character data with the existing character storage unit 112 and the similar character storage unit 115 (step S16).
  • the collation processing unit 123 selects the candidate characters and stores them in the candidate character storage unit 116 (step S17).
  • the candidate character transmission processing unit 125 transmits the candidate character to the business terminal 200 (step S18).
  • the consignment processing unit 222 of the business terminal 200 receives the candidate characters and stores them in the candidate character storage unit 212 (step S19).
  • the visual confirmation processing unit 223 outputs a screen for comparing the candidate characters with the image of the image storage unit (step S20). More specifically, for example, a plurality of handwritten character images read by the reading device 300 and a plurality of candidate characters are displayed on the screen so that they can be selected and input.
  • the similar character report processing unit 224 Upon receiving the registration instruction of the similar character from the user, the similar character report processing unit 224 accepts the input if there is a similar character as a single character other than the candidate character, and responds to the character candidate proposal device 100 (step S21).
  • the similar character registration processing unit 124 of the character candidate proposal device 100 receives similar characters, and if they are not stored in the similar character storage unit 115, stores them (step S22).
  • FIG. 12 is a diagram showing an example of the flow of the first and last name classification collation processing.
  • the first and last name classification collation processing is an example of processing in which the processing of steps S16 to S18 in the overall processing flow of handwriting character recognition is performed as a series.
  • the first and last name determination processing unit 122 specifies the total number of characters n (step S1601). For example, when the name of "Shin Oyamada” is a character string to be presented as a candidate, the surname / first name discrimination processing unit 122 sets each kanji of "small”, “mountain”, “ta”, and “shin” as one character and totals them. The number of characters n is specified as "4".
  • the surname / first name determination processing unit 122 decomposes the d (d is 1 or more and less than n, initial value 1) character from the beginning as the surname and the remaining characters as the name (step S1602).
  • the collation processing unit 123 decomposes the characters constituting the surname one by one and collates them with the similar character storage unit 115, collates the combination of similar characters with the surname storage unit 113, and selects an existing surname candidate (step). S1603).
  • the surname / first name determination processing unit 122 determines whether or not there is a surname candidate corresponding to the similar character storage unit 115 (step S1604). When there is no surname candidate (in the case of "Yes" in step S1604), the surname determination processing unit 122 advances the control to step S1611, which will be described later.
  • the surname / first name determination processing unit 122 determines whether or not there is at least one surname candidate in the surname storage unit 113 (the surname candidate). Step S1605). If there is no corresponding surname storage unit 113 (in the case of "No" in step S1605), the surname / first name determination processing unit 122 advances the control to step S1611, which will be described later.
  • the surname / surname determination processing unit 122 When there is a surname corresponding to the surname storage unit 113 in the surname candidate (in the case of “Yes” in step S1605), the surname / surname determination processing unit 122 temporarily stores all the selected surname candidates (step S1606). ..
  • the collation processing unit 123 decomposes the characters constituting the name one by one and collates them with the similar character storage unit 115, collates the combination of similar characters with the name storage unit 114, and selects an existing name candidate. (Step S1607).
  • the first and last name determination processing unit 122 determines whether or not there is a name candidate corresponding to the similar character storage unit 115 (step S1608). If there is no name candidate (in the case of "Yes" in step S1608), the first and last name determination processing unit 122 advances the control to step S1611, which will be described later.
  • the surname / first name determination processing unit 122 determines whether or not there is at least one name candidate corresponding to the name storage unit 114 (the name candidate). Step S1609). If there is no corresponding name storage unit 114 (in the case of "No" in step S1609), the first and last name determination processing unit 122 advances the control to step S1611, which will be described later.
  • the surname / first name determination processing unit 122 temporarily stores all the selected name candidates (step S1610). ..
  • the surname / first name discrimination processing unit 122 increments (+1) the number of characters d of the surname (step S1611).
  • the surname / first name determination processing unit 122 determines whether or not the number of characters d of the surname matches the total number of characters n (step S1612). If they do not match (in the case of "No" in step S1612), the first and last name determination processing unit 122 returns the control to step S1602.
  • the surname / first name determination processing unit 122 When the number of characters d of the surname matches the total number of characters n (when "Yes" in step S1612), the surname / first name determination processing unit 122 temporarily stores the surname candidates and the name candidates (last name length + first name length is the total number of characters). It is determined whether or not there is a set of (matching n), that is, whether or not there is a hit surname or surname combination as a result (step S1613).
  • the candidate character transmission processing unit 125 Notify the business terminal 200 of the inability to discriminate (step S1614).
  • the candidate character transmission processing unit 125 may perform the candidate character transmission processing unit 125. Character candidates are transmitted to the business terminal 200 (step S1801). At that time, the candidate character transmission processing unit 125 arranges and transmits the temporarily stored surname candidate and the pair of name candidates in the order of appearance frequency. That is, the candidate character transmission processing unit 125 transmits the surname candidate and the name candidate, which are composed of characters having a high frequency of appearance, in this order.
  • the above is an example of the flow of the first and last name classification verification process.
  • the surname / first name classification collation process it is possible to identify an existing candidate by applying each similar character to a name consisting of one or more characters by changing the classification position of the first and last name. For example, in the case of the above name of "Shin Oyamada”, "Ta” and “Yu” are similar characters, and the two-letter surname "Koyama” and the remaining name “Yunobu” are candidates, and the three-letter surname.
  • Candidate characters including "Oyamada” and the remaining name "Shin” can be specified.
  • FIG. 13 is a diagram showing an example of a flow of candidate character receiving processing.
  • the candidate character receiving process is an example of a process in which the processes of steps S19 to S21 in the overall processing flow of handwritten character recognition are performed as a series.
  • the consignment processing unit 222 stores the received candidate characters in the candidate character storage unit 212 (step S191).
  • the visual confirmation processing unit 223 confirms and displays the candidate character and the handwritten character image (step S201). A screen example of this confirmation display will be described later.
  • the visual confirmation processing unit 223 accepts the selection input of the candidate character (step S202). This confirms the digitization of handwritten characters.
  • the similar character report processing unit 224 determines whether or not there is an input of a new similar character (step S211). When there is no input of a new similar character (in the case of "No" in step S211), the similar character reporting processing unit 224 ends the candidate character receiving process.
  • the similar character report processing unit 224 transmits information to be a new similar character to the character candidate proposal device 100 (step). S212).
  • the candidate character can be received from the character candidate proposal device 100, and the candidate can be selected and input while comparing with the handwritten character. Further, when a similar character is noticed, it can be reported to the character candidate proposal device 100 and requested to be newly registered as a similar character.
  • FIG. 14 is a diagram showing an example of a flow of similar character registration processing.
  • the similar character registration process is started by the character candidate proposal device 100 when information that becomes similar characters in the candidate character reception process is transmitted from the business terminal 200 to the character candidate proposal device 100.
  • the similar character registration processing unit 124 determines whether or not the received similar character information is already stored in the similar character storage unit 115 (step S2201).
  • the similar character registration processing unit 124 makes a one-to-one combination of similar characters. Specify (decompose characters having a similar relationship into a one-to-one combination) (step S2202).
  • the similar character registration processing unit 124 stores both characters that are similar to each other in the similar character storage unit 115 as being similar to each other (step S2203).
  • step S2201 When the received similar character information is already stored in the similar character storage unit 115 (in the case of "Yes" in step S2201), the similar character registration processing unit 124 has already been registered in the business terminal 200. Notify that there is (step S2204).
  • the similar character registration processing unit 124 increases the appearance frequency of each of the similar characters by a predetermined amount (step S2205).
  • the above is an example of the flow of similar character registration processing.
  • the similar character registration process if the similar characters requested to be registered from the business terminal 200 have a new relationship, they are registered as similar, and if they are already registered, the frequency of appearance can be increased. it can.
  • FIG. 15 is a diagram showing an example of a candidate presentation screen.
  • the candidate presentation screen 400 is a screen output in step S20 of the handwriting character recognition overall processing flow and step S201 of the candidate character receiving processing.
  • the original data for visual confirmation (handwritten character image read by the reading device 300) is displayed in the original data display area 401, and the candidate characters to be visually confirmed are the surname candidate display area 402 and the name candidate display. It is displayed in area 403.
  • the candidate characters proposed by the character candidate proposal device 100 as the candidate with the highest appearance rate are displayed.
  • the surname candidate determination button 404 receives the input
  • the surname candidate display area 402 confirms the surname.
  • the name candidate determination button 405 receives the input, the name candidate display area 403 confirms the name shown in the name candidate display area 403.
  • Candidate characters after the next candidate are arranged in the surname next candidate display area 406 and the name next candidate display area 407 in order of appearance frequency, and are displayed in a selectable list.
  • the surname next candidate display area 406 and the surname next candidate display area 407 accept the selection of the listed characters.
  • the surname next candidate determination button 408 accepts the input, the surname selected in the surname next candidate display area 406 is confirmed.
  • the name next candidate determination button 409 receives the input, the name next candidate determination button 409 confirms the name selected in the name next candidate display area 407.
  • the similar character registration area 410 and the similar character registration area 411 each accept character input.
  • the registration button 412 accepts the input, the registration button 412 accepts the characters input in the similar character registration area 410 and the similar character registration area 411 as characters having a similar relationship, and starts the registration process in the character candidate proposal device 100. That is, as a result of visual confirmation, if there is a character that the person in charge of visual work (user) feels the need for registration as a new similar character, the character is input to the similar character registration area 410 and the similar character registration area 411. Registration is possible by selecting the registration button 412. Further, when the input to the back button 413 and the next screen button 414 is accepted as necessary, the screen transitions to the previous / next business screen.
  • FIG. 16 is a diagram showing an example of presenting surname candidates.
  • the handwritten character identification system 1 to which the present embodiment is applied even if the reading device 300 and the character recognition unit 221 misread, there is a high possibility that the presented candidates include characters that are correct answers. Specifically shown.
  • the misread "Ogi” (b) is decomposed into “small” (c) and “tree” (d), each is collated with the similar character storage unit 115, and the similar characters are sorted in descending order of frequency of appearance. Identify (e, f). Subsequently, the candidate characters (g) are selected and aligned by collating the surname, which is a composite of characters having a high frequency of appearance, with the surname storage unit 113. As a result, even if there is a misreading, it is expected that the character recognition rate will be improved while avoiding the subordination of the correct answer "Kawamoto" (a) or omission of candidates by executing the collation with the similar character storage unit 115. it can.
  • a similar character string candidate can be more appropriately proposed for the image in which the handwritten character is read, so that the user selects from the presented candidates. You can smoothly read handwritten characters just by doing this.
  • the name is illustrated as the target of the handwritten characters, but the name is not limited to this, and by replacing the existing character storage unit 112 to be collated, it can be applied to any other character data such as an address. It is possible.
  • the technical elements of the above-described embodiment may be applied independently, or may be applied separately in a plurality of parts such as a program component and a hardware component.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Character Discrimination (AREA)

Abstract

類似する文字列候補をより適切に提案する技術を提供する。 文字候補提案装置であって、文字の外観の類似関係を記憶する類似文字記憶部と、実存する文字列を記憶する実存文字記憶部と、一つ以上の文字を受信して該文字の外観の類似する文字候補の案出を受託する受託処理部と、受信した文字と外観が類似する文字の候補を、類似文字記憶部と照合することで特定し、外観が類似する文字の候補の組み合わせのうち実存文字記憶部に記憶された実存する文字列と照合する照合処理部と、照合処理部による照合の結果ヒットした外観が類似する文字の候補の組み合わせを候補文字として出力する候補文字送信処理部と、を備える。

Description

文字候補提案装置、手書文字識別システム、手書文字識別方法およびプログラム
 本発明は、文字候補提案装置、手書文字識別システム、手書文字識別方法およびプログラムに関するものである。本発明は2019年9月9日に出願された日本国特許の出願番号2019-163641の優先権を主張し、文献の参照による織り込みが認められる指定国については、その出願に記載された内容は参照により本出願に織り込まれる。
 特許文献1には、「情報処理装置は、画像データから文字列を抽出する文字抽出部224と、入力文字に対応する1または2以上の変換候補文字を含む変換候補リストを作成するリスト作成部244と、前記変換候補リストに含まれる前記1または2以上の変換候補文字と、前記文字抽出部によって抽出された文字列との比較に基づいて、変換先の文字を特定する特定部248と、前記特定部によって特定された前記変換先の文字を含む表示画面を生成する表示制御部252と、を備える」ことについて記載されている。
特開2018-163413号公報
 上記技術は、文字の候補を提示できるが、文字の認識を誤ると、適切な結果を得ることが難しい。
 本発明の目的は、類似する文字列候補をより適切に提案する技術を提供することにある。
 本願は、上記課題の少なくとも一部を解決する手段を複数含んでいるが、その例を挙げるならば、以下のとおりである。本発明の一態様に係る情報処理装置は、文字の外観の類似関係を記憶する類似文字記憶部と、実存する文字列を記憶する実存文字記憶部と、一つ以上の文字を受信して該文字の外観の類似する文字候補の案出を受託する受託処理部と、受信した前記文字と外観が類似する文字の候補を、前記類似文字記憶部と照合することで特定し、前記外観が類似する文字の候補の組み合わせのうち前記実存文字記憶部に記憶された前記実存する文字列と照合する照合処理部と、前記照合処理部による照合の結果ヒットした前記外観が類似する文字の候補の組み合わせを候補文字として出力する候補文字送信処理部と、を備える。
 また例えば、上記の文字候補提案装置は、前記候補文字を出力後、前記受託処理部が受信した前記文字のいずれかと類似する文字を受け付けると、前記類似文字記憶部に記憶されていない類似関係であれば前記類似文字記憶部に記憶させる類似文字登録処理部、を備えるものであってもよい。
 また例えば、上記の文字候補提案装置は、前記実存文字記憶部には、実存する人名の文字列が格納されており、前記受託処理部は、案出する前記文字候補として人名の案出を受託し、前記候補文字送信処理部は、前記外観が類似する文字の候補の組み合わせを人名の候補文字として出力するものであってもよい。
 また例えば、上記の文字候補提案装置であって、前記実存する人名の文字列は、姓と名が区分されており、受信した前記文字を姓と名に区分して前記照合処理部に照合させる姓名判別処理部、を備えるものであってもよい。
 また例えば、上記の文字候補提案装置であって、前記姓名判別処理部は、受信した前記文字について姓と名を区切る位置を変化させて姓と名に区分した組み合わせを特定し、各組み合わせの姓と名の両方について、前記照合処理部による照合の結果ヒットを得られた場合に前記候補文字とする、ことを特徴とするものであってもよい。
 また例えば、上記の文字候補提案装置であって、前記候補文字送信処理部は、前記候補文字を、出現頻度に応じて整列して出力する、ことを特徴とするものであってもよい。
 また例えば、上記の文字候補提案装置であって、前記受託処理部が受信する前記文字は、手書き文字を読み取って認識した文字である、ことを特徴とするものであってもよい。
 また、本発明の別の態様にかかる手書文字識別システムは、文字候補提案装置と、前記文字候補提案装置とネットワークを介して通信可能に接続される業務端末と、前記業務端末からの指示に応じて手書文字を読み取る読取装置と、を含む手書文字識別システムであって、前記業務端末は、前記読取装置から前記手書文字を取得して文字認識を行う文字認識部と、前記文字認識部により認識された文字を前記文字候補提案装置に送信して文字候補の提案を委託する委託処理部と、前記文字候補提案装置から出力された文字候補を表示する目視確認処理部と、を備え、前記文字候補提案装置は、文字の外観の類似関係を記憶する類似文字記憶部と、実存する文字列を記憶する実存文字記憶部と、一つ以上の文字を受信して該文字の外観の類似する文字候補の案出を受託する受託処理部と、受信した前記文字と外観が類似する文字の候補を、前記類似文字記憶部と照合することで特定し、前記外観が類似する文字の候補の組み合わせのうち前記実存文字記憶部に記憶された前記実存する文字列と照合する照合処理部と、前記照合処理部による照合の結果ヒットした前記外観が類似する文字の候補の組み合わせを候補文字として出力する候補文字送信処理部と、を備える、ことを特徴とする。
 また、本発明の別の態様にかかる手書文字識別方法は、文字候補提案装置と、前記文字候補提案装置とネットワークを介して通信可能に接続される業務端末と、前記業務端末からの指示に応じて手書文字を読み取る読取装置と、を含む手書文字識別システムによる手書文字識別方法であって、前記業務端末は、前記読取装置から前記手書文字を取得して文字認識を行う文字認識ステップと、前記文字認識ステップにおいて認識された文字を前記文字候補提案装置に送信して文字候補の提案を委託する委託処理ステップと、前記文字候補提案装置から出力された文字候補を表示する目視確認処理ステップと、を実行し、前記文字候補提案装置は、文字の外観の類似関係を記憶する類似文字記憶部と、実存する文字列を記憶する実存文字記憶部と、を備え、一つ以上の文字を受信して該文字の外観の類似する文字候補の案出を受託する受託処理ステップと、受信した前記文字と外観が類似する文字の候補を、前記類似文字記憶部と照合することで特定し、前記外観が類似する文字の候補の組み合わせのうち前記実存文字記憶部に記憶された前記実存する文字列と照合する照合処理ステップと、前記照合処理ステップによる照合の結果ヒットした前記外観が類似する文字の候補の組み合わせを候補文字として出力する候補文字送信処理ステップと、を実行することを特徴とする。
 また、本発明の別の態様にかかるプログラムは、コンピュータに、手書文字の識別を支援させる処理を行わせるプログラムであって、前記コンピュータは、文字の外観の類似関係を記憶する類似文字記憶部と、実存する文字列を記憶する実存文字記憶部と、処理部と、を備え、前記処理部に、一つ以上の文字を受信して該文字の外観の類似する文字候補の案出を受託する受託処理ステップと、受信した前記文字と外観が類似する文字の候補を、前記類似文字記憶部と照合することで特定し、前記外観が類似する文字の候補の組み合わせのうち前記実存文字記憶部に記憶された前記実存する文字列と照合する照合処理ステップと、前記照合処理ステップによる照合の結果ヒットした前記外観が類似する文字の候補の組み合わせを候補文字として出力する候補文字送信処理ステップと、を実施させることを特徴とする。
 本発明によると、文章の内容を適切に評価できる技術を提供することができる。
 上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。
実施形態に係る手書文字識別システムの概要を例示するブロック図である。 手書文字識別システムの構成の例を示す図である。 受領データ記憶部のデータ構造例を示す図である。 名字記憶部のデータ構造例を示す図である。 名前記憶部のデータ構造例を示す図である。 類似文字記憶部のデータ構造例を示す図である。 候補文字記憶部のデータ構造例を示す図である。 文字記憶部のデータ構造例を示す図である。 画像記憶部のデータ構造例を示す図である。 文字候補提案装置のハードウェア構成例を示す図である。 手書文字認識の全体処理フローの例を示す図である。 姓名区分照合処理のフローの例を示す図である。 候補文字受領処理のフローの例を示す図である。 類似文字登録処理のフローの例を示す図である。 候補提示画面の例を示す図である。 名字候補提示例を示す図である。
 以下に、本発明の一態様に係る実施形態を適用した手書文字識別システム1について、図面を参照して説明する。以下の実施の形態においては便宜上その必要があるときは、複数のセクションまたは実施の形態に分割して説明するが、特に明示した場合を除き、それらはお互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。
 また、以下の実施の形態において、要素の数等(個数、数値、量、範囲等を含む)に言及する場合、特に明示した場合および原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。
 さらに、以下の実施の形態において、その構成要素(要素ステップ等も含む)は、特に明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではないことは言うまでもない。
 同様に、以下の実施の形態において、構成要素等の形状、位置関係等に言及するときは特に明示した場合および原理的に明らかにそうではないと考えられる場合等を除き、実質的にその形状等に近似または類似するもの等を含むものとする。このことは、上記数値および範囲についても同様である。
 また、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。
 図1は、本実施形態に係る手書文字識別システムの概要を例示するブロック図である。手書文字識別システム1は、利用者が業務端末200を用いてブラウザ等を介して文字候補提案装置100に接続して利用するが、これに限られず、文字候補提案装置100の各機能がアプリケーションソフトウェアとして業務端末200に搭載されるものであってもよい。
 なお、業務端末200から文字候補提案装置100に接続する際には、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット、携帯電話網等、あるいはこれらが複合した通信網であるネットワーク50を介して接続される。当該ネットワークは、携帯電話通信網等の無線通信網上のVPN(Virtual Private Network)等であってもよい。
 手書文字識別システム1の応用例を挙げると、手書文字識別システム1は、所定の書面(例えば、保険の申込書や銀行口座の開設申込書等、氏名を所定の様式に従って手書きで入力する書面)の取り扱いを伴う業務システム等がある。
 その際には、利用者は、所定の書面の所定の欄に氏名を手書きで書き込むことが想定されるが、大量の書面を事務処理するためには、コンピュータ処理による大量の情報処理を介した方が効率性の面でメリットが大きいため、一般的には氏名等の手書きの記述はOCR(Optical Character Recognition)によりデジタル化されることが多い。
 ここで、紙文書の文字データ電子化技術は向上しているが、誤読や不読が一定の割合で生じ、あらゆる手書き文字を完全に認識可能な技術は存在しない。そのため、最終的に人の目視による文字一致確認を行っているが、この目視作業は文書の文字データ電子化コストの削減を阻害する要因の一つとなっている。具体的には、氏名を読み取りした場合、名字、名前等の氏名に関するデータベースと照合して文字の認識率の向上を図る仕組みが取り入れられているが、読み取りが難しい文字や紛らわしい文字もあり、誤読が発生しているか目視で確認するコストが依然としてかかる。
 つまり、読取した文字に誤読が含まれる場合、例えば正しい名字「川本」をOCR等の文字認識エンジンが「小木」と誤読した場合、誤である「小木」に対して各データベースとの照合を行うため、正である「川本」の候補順位が劣後、または候補洩れする可能性がある。
 また、名字部分と名前部分の記入欄が各々明確にしないで氏名をフルネームとして記入する書式を用いる場合には、正しい名字の識別がなされなければ誤読の発生にすら気づかない場合もある。例えば「小山田伸」(おやまだしん)というフルネームの「田」を「由」と誤読すると、名字を「小山」(こやま)と認識し、「由」から始まる「由伸」(よしのぶ)等の名前を候補としてしまう可能性がある。
 これらを鑑み、本願はOCR等の文字認識エンジンで読取った文字が誤であることも前提に、名字と名前に関するDBとの照合に加えて、過去においてOCR等の文字認識エンジンで誤読の多かった文字の情報を記録した類似文字と照合する。これにより、誤読の発生しやすい文字を含んだ読取文字の候補の範囲を適切に広げ、劣後または候補洩れの可能性のある文字も候補とするとともに、名字と名前の判別処理を行ったうえで、候補文字の選別を行う。また、この類似文字は、文字の目視確認作業を通じて常に新しい類似文字情報が蓄積されうるものとすることで、文字認識の精度向上をねらう。
 本実施形態に係る業務端末200は、そのような所定の書面をデジタル化する業務に用いられる端末である。読取装置300は、スキャナーや撮像装置等であり、業務端末200からの指示に応じて所定の書面を画像等により読み取り、読み取った手書文字画像を業務端末200に受け渡す。
 当該業務では、業務端末200は、手書文字画像を受け取ると、OCRによりデジタル化して文字列情報へと変換し、変換した文字列を文字候補提案装置100に送信して文字候補提案装置100から案出された候補文字を受け取る。そして、業務端末200は、候補文字を選択的に表示し、利用者に選択された候補文字をデジタル化情報として利用する。
 なお、読取装置300は、スキャナーに限られるものではなく、カメラ付き携帯電話端末、カメラ付きタブレット端末等の画像をデータとして読込み可能な機器であってもかまわず、ネットワーク50を介して業務端末200と通信可能に接続される構成であってもよい。
 また、読取装置300は必須の装置ではなく、文字候補提案装置100または業務端末200がネットワーク50を介して他の装置から既に読取った画像データや文字認識を行ったデータを受信し、文字候補を提案するものであってもよい。
 図2は、手書文字識別システムの構成の例を示す図である。文字候補提案装置100は、記憶部110と、処理部120と、通信部130と、が互いにバス等で通信可能に接続される。
 記憶部110には、受領データ記憶部111と、実存文字記憶部112と、類似文字記憶部115と、候補文字記憶部116と、が含まれる。実存文字記憶部112には、実存する人名や固有名詞等の文字列が格納される。例えば、実存文字記憶部112には、名字記憶部113と、名前記憶部114と、が含まれる。例えば、日本人の名字は、30万種類以上あるといわれており、その実在が確認されている名字が名字記憶部113に格納される。
 図3は、受領データ記憶部のデータ構造例を示す図である。受領データ記憶部111には、受託日111Aと、依頼企業ID111Bと、文書番号111Cと、文字識別番号111Dと、認識文字コード111Eと、が含まれる。受託日111Aは、業務端末200から文字候補提案の依頼を受託した日を特定する情報である。依頼企業ID111Bは、文字候補提案を依頼した企業を特定する情報である。文書番号111Cは、文字候補提案の依頼対象となった文書(文書の画像データ)を特定する情報である。文字識別番号111Dは、認識対象の文書に含まれる個々の文字を特定する情報である。認識文字コード111Eは、個々の文字を外観から認識した結果得られた文字の文字コードである。
 図4は、名字記憶部のデータ構造例を示す図である。名字記憶部113には、名字識別子113Aと、名字113Bと、文字数113Cと、出現頻度113Dと、が含まれる。名字識別子113Aは、名字を他の名字から識別する情報である。名字113Bは、名字の表記情報である。文字数113Cは、名字の表記上の文字数である。出現頻度113Dは、名字の総体の中での出現頻度である。
 図5は、名前記憶部のデータ構造例を示す図である。名前記憶部114には、名前識別子114Aと、名前114Bと、文字数114Cと、出現頻度114Dと、が含まれる。名前識別子114Aは、名前を他の名前から識別する情報である。名前114Bは、名前の表記情報である。文字数114Cは、名前の表記上の文字数である。出現頻度114Dは、名前の総体の中での出現頻度である。
 図6は、類似文字記憶部のデータ構造例を示す図である。類似文字記憶部115には、文字コード115Aと、類似文字コード115Bと、出現頻度115Cと、記憶日115Dと、が含まれる。文字コード115Aは、互いに類似関係にある文字のうち基準とする文字のコードである。類似文字コード115Bは、文字コード115Aで特定される文字と外観上類似する文字のコードである。出現頻度115Cは、文字の使用において類似関係として出現する頻度である。記憶日115Dは、類似関係として記憶された日を特定する情報である。
 図7は、候補文字記憶部のデータ構造例を示す図である。候補文字記憶部116には、文字識別番号116Aと、候補文字コード116Bと、が含まれる。文字識別番号116Aは、認識対象の文書に含まれる個々の文字を特定する情報である。候補文字コード116Bは、OCRで認識された文字とは異なる文字候補であって、類似し、かつ実存する文字のコードである。
 処理部120には、受託処理部121と、姓名判別処理部122と、照合処理部123と、類似文字登録処理部124と、候補文字送信処理部125と、が含まれる。
 受託処理部121は、業務端末200からの文字候補の提案依頼を受託する。姓名判別処理部122は、複数の文字列の文字候補の提案を受けた場合に、姓名の区分位置を一文字ずつ変化させて区切った姓と名の組み合わせを特定し姓名として成立するか否か判別する。照合処理部123は、実存文字記憶部112と照合して、実存する文字候補であるか否かを判定する。類似文字登録処理部124は、未登録の類似関係として業務端末200から報告された文字を、類似文字記憶部115に登録する。候補文字送信処理部125は、照合処理部123による照合の結果ヒットした外観が類似する文字の候補の組み合わせを候補文字として出力する。具体的には、候補文字送信処理部125は、候補文字記憶部116に格納された候補を業務端末200に出力(送信)することで案出を実現する。通信部130は、ネットワーク50を介して他の装置と通信を行う。
 業務端末200は、記憶部210と、処理部220と、通信部230と、が互いにバス等で通信可能に接続される。
 記憶部210には、文字記憶部211と、候補文字記憶部212と、画像記憶部213と、が含まれる。
 図8は、文字記憶部のデータ構造例を示す図である。文字記憶部211には、画像データ番号211Aと、読取日211Bと、文字識別番号211Cと、画像211Dと、が含まれる。
 画像データ番号211Aは、読取装置300が読み取った文字列の画像を特定する情報である。読取日211Bは、読取装置300が文書を読み取った日を特定する情報である。文字識別番号211Cは、認識対象の文書に含まれる個々の文字を特定する情報である。画像211Dは、文字識別番号211Cで特定される文字単独の画像データ(読取装置300が読み取った画像の一部)を特定する情報である。
 図9は、画像記憶部のデータ構造例を示す図である。画像記憶部213には、画像データ番号213Aと、文書番号213Bと、読取日213Cと、画像213Dと、が含まれる。
 画像データ番号213Aは、読取装置300が読み取った文字列の画像を特定する情報である。文書番号213Bは、文字候補提案の依頼対象となった文書(文書の画像データ)を特定する情報である。読取日213Cは、読取装置300が文書を読み取った日を特定する情報である。画像213Dは、読取装置300が読み取った画像を特定する情報である。
 処理部220には、文字認識部221と、委託処理部222と、目視確認処理部223と、類似文字報告処理部224と、が含まれる。文字認識部221は、いわゆるOCRのエンジンであり、読取装置300から取得した手書文字画像を解析して文字を認識する。
 委託処理部222は、文字認識部221による誤読に起因する手戻りや手続の誤りを排除するために、文字候補提案装置100に精度の高い候補文字の提案を委託する。
 目視確認処理部223は、文字候補提案装置100から出力された文字候補のそれぞれを目視で確認できるように選択的に表示し、利用者から候補のいずれかの選択を受け付ける。
 類似文字報告処理部224は、利用者が類似する文字であると認識した文字の入力を受け付けて、文字候補提案装置100に類似文字として登録するよう報告する。
 通信部230は、ネットワーク50を介して他の装置と通信を行う。
 その他に、業務端末200は、図示しないが、利用者からの入力を受け付ける入力部と、画面や帳票等の各種出力情報を出力する出力部と、を備える。例えば、入力部は、タイピングやタッチ、フリック入力等の各種の接触入力、あるいは音声入力、または視線入力等の各種の入力を受け付ける。
 図10は、文字候補提案装置100のハードウェア構成例を示す図である。文字候補提案装置100は、いわゆるサーバー装置、ワークステーション、パーソナルコンピュータ、スマートフォンあるいはタブレット端末の筐体により実現されるハードウェア構成を備える。文字候補提案装置100は、演算装置101と、主記憶装置102と、補助記憶装置103と、通信装置104と、各装置をつなぐバス107と、を備える。業務端末200についても、同様である。また他に、業務端末200は、タッチパネルやキーボード、マイク、ディスプレイ等の入出力装置を備える。
 演算装置101は、例えばCPU(Central Processing Unit)などの演算装置である。
 主記憶装置102は、例えばRAM(Random Access Memory)などのメモリ装置である。
 補助記憶装置103は、デジタル情報を記憶可能な、いわゆるハードディスク(Hard Disk Drive)やSSD(Solid State Drive)あるいはフラッシュメモリなどの不揮発性記憶装置である。
 通信装置104は、ネットワークカード等の有線通信装置、あるいは無線通信装置である。
 上記した文字候補提案装置100の受託処理部121と、姓名判別処理部122と、照合処理部123と、類似文字登録処理部124と、候補文字送信処理部125とは、演算装置101に処理を行わせるプログラムによって実現される。このプログラムは、主記憶装置102、補助記憶装置103または図示しないROM装置内に記憶され、実行にあたって主記憶装置102上にロードされ、演算装置101により実行される。
 また、文字候補提案装置100の記憶部110は、主記憶装置102及び補助記憶装置103により実現される。また、通信部130は、通信装置104により実現される。以上が、文字候補提案装置100のハードウェア構成例である。
 文字候補提案装置100の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、1つの構成要素がさらに多くの処理を実行するように分類することもできる。
 また、各処理部(受託処理部121と、姓名判別処理部122と、照合処理部123と、類似文字登録処理部124と、候補文字送信処理部125)は、それぞれの機能を実現する専用のハードウェア(ASIC、GPUなど)により構築されてもよい。また、各処理部の処理が一つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。
 次に、本実施形態における手書文字識別システム1の動作を説明する。
 図11は、手書文字認識の全体処理フローの例を示す図である。手書文字認識処理は、用者が業務端末200から開始を指示することにより起動される。
 まず、業務端末200は、読取装置300に文書の画像データの読取を要求する(ステップS10)。具体的には、文字認識部221は、読取装置300にスキャンあるいは撮影の開始を指示する。
 読取装置300は、業務端末200からの要求を受けて、当該文書の画像を読みとり、画像データを作成して業務端末200宛に応答する(ステップS11)。
 業務端末200の文字認識部221は、読取装置300から画像データを受領し、画像記憶部213に記憶し、OCRエンジンにて文字認識処理を実行する(ステップS12)。そして、認識した文字データを文字記憶部211に格納する(ステップS13)。なお、このOCRエンジンは、業務端末200が接続可能なネットワーク上に置かれているPC端末、サーバー端末等に実装され、業務端末200から文字認識処理を指示することで実行する構成であってもよい。
 そして、業務端末200では、認識した文字を委託処理部222が文字候補提案装置100に対して送信し、文字候補の提案処理を委託する(ステップS14)。
 そして、文字候補提案装置100の受託処理部121は、業務端末200から認識した文字を受領して受領データ記憶部111に格納する(ステップS15)。
 そして、照合処理部123が、受領した文字データを、実存文字記憶部112と、類似文字記憶部115と照合する(ステップS16)。
 そして、照合処理部123が、候補文字を選別し、候補文字記憶部116に格納する(ステップS17)。
 そして、候補文字送信処理部125が、候補文字を業務端末200あてに送信する(ステップS18)。
 業務端末200の委託処理部222は、候補文字を受領し、候補文字記憶部212に格納する(ステップS19)。
 そして、目視確認処理部223は、候補文字と画像記憶部の画像とを対比する画面を出力する(ステップS20)。より具体的には、例えば、当該画面には、読取装置300により読み取った手書文字画像と、その候補文字が選択入力可能なように複数表示される。
 利用者から類似文字の登録指示を受け付けると、類似文字報告処理部224は、候補文字以外に単文字で類似する文字があれば入力を受け付け、文字候補提案装置100へ応答する(ステップS21)。
 文字候補提案装置100の類似文字登録処理部124は、類似文字を受領し、類似文字記憶部115に未格納の場合には、格納する(ステップS22)。
 以上が、手書文字認識の全体処理フローの例である。手書文字認識の全体処理によれば、類似する文字列候補をより適切に提案することができる。
 図12は、姓名区分照合処理のフローの例を示す図である。姓名区分照合処理は、手書文字認識の全体処理フローの中のステップS16~S18の処理を一連として行う処理の例である。
 まず、姓名判別処理部122は、総文字数nを特定する(ステップS1601)。例えば、「小山田伸」の氏名が候補提示の対象となる文字列である場合には、姓名判別処理部122は、「小」「山」「田」「伸」の各漢字を一文字として、総文字数nを「4」と特定する。
 そして、姓名判別処理部122は、先頭からd(dは1以上n未満、初期値1)文字を名字として、残りの文字を名前とするように分解する(ステップS1602)。
 照合処理部123は、名字を構成する文字を一字ずつ分解して類似文字記憶部115と照合し、類似する文字の組み合わせを名字記憶部113と照合して実在する名字候補を選出する(ステップS1603)。
 そして、姓名判別処理部122は、類似文字記憶部115に該当した名字候補が無かったか否か判定する(ステップS1604)。名字候補が無かった場合(ステップS1604にて「Yes」の場合)には、姓名判別処理部122は、制御を後述するステップS1611へ進める。
 名字候補があった場合(ステップS1604にて「No」の場合)には、姓名判別処理部122は、当該名字候補には名字記憶部113に1つでも該当するものがあったか否か判定する(ステップS1605)。名字記憶部113に該当するものが無かった場合(ステップS1605にて「No」の場合)には、姓名判別処理部122は、制御を後述するステップS1611へ進める。
 名字候補に名字記憶部113に該当する名字があった場合(ステップS1605にて「Yes」の場合)には、姓名判別処理部122は、選出した全ての名字候補を一時保管する(ステップS1606)。
 そして、照合処理部123は、名前を構成する文字を一字ずつ分解して類似文字記憶部115と照合し、類似する文字の組み合わせを名前記憶部114と照合して実在する名前候補を選出する(ステップS1607)。
 そして、姓名判別処理部122は、類似文字記憶部115に該当した名前候補が無かったか否か判定する(ステップS1608)。名前候補が無かった場合(ステップS1608にて「Yes」の場合)には、姓名判別処理部122は、制御を後述するステップS1611へ進める。
 名前候補があった場合(ステップS1608にて「No」の場合)には、姓名判別処理部122は、当該名前候補には名前記憶部114に1つでも該当するものがあったか否か判定する(ステップS1609)。名前記憶部114に該当するものが無かった場合(ステップS1609にて「No」の場合)には、姓名判別処理部122は、制御を後述するステップS1611へ進める。
 名前候補に名前記憶部114に該当する名前があった場合(ステップS1609にて「Yes」の場合)には、姓名判別処理部122は、選出した全ての名前候補を一時保管する(ステップS1610)。
 そして、姓名判別処理部122は、名字の文字数dをインクリメント(+1)する(ステップS1611)。
 そして、姓名判別処理部122は、名字の文字数dが総文字数nと一致するか否か判定する(ステップS1612)。一致しない場合(ステップS1612にて「No」の場合)には、姓名判別処理部122は、制御をステップS1602に戻す。
 名字の文字数dが総文字数nと一致する場合(ステップS1612にて「Yes」の場合)には、姓名判別処理部122は、一時保管した名字候補および名前候補(名字長+名前長が総文字数nと一致するもの)の組があるか否か、すなわち結果としてヒットした姓名の組み合わせがあったか否か判定する(ステップS1613)。
 一時保管した名字候補および名前候補(名字長+名前長が総文字数nと一致するもの)の組がない場合(ステップS1613にて「No」の場合)には、候補文字送信処理部125は、業務端末200に対して、判別不能を通知する(ステップS1614)。
 一時保管した名字候補および名前候補(名字長+名前長が総文字数nと一致するもの)の組がある場合(ステップS1613にて「Yes」の場合)には、候補文字送信処理部125は、業務端末200に対して、文字候補を送信する(ステップS1801)。その際、候補文字送信処理部125は、一時保管した名字候補および名前候補の組ごとに、出現頻度の順に応じて整列させて送信する。すなわち、候補文字送信処理部125は、出現頻度の高い文字から構成されている名字候補および名前候補の順に送信する。
 以上が、姓名区分照合処理のフローの例である。姓名区分照合処理によれば、一以上の文字からなる氏名について、姓名の区分位置を変えてそれぞれの類似文字を当てはめ、実存する候補を特定することができる。例えば、上記の「小山田伸」の氏名の場合、「田」と「由」が類似文字であり、二文字の名字「小山」と残り部分の名前「由伸」とする候補と、三文字の名字「小山田」と残り部分の名前「伸」とする候補と、を含む候補文字を特定できる。
 図13は、候補文字受領処理のフローの例を示す図である。候補文字受領処理は、手書文字認識の全体処理フローの中のステップS19~S21の処理を一連として行う処理の例である。
 まず、委託処理部222は、受領した候補文字を候補文字記憶部212に記憶させる(ステップS191)。
 そして、目視確認処理部223は、候補文字と手書文字画像を確認表示する(ステップS201)。この確認表示の画面例については、後述する。
 そして、目視確認処理部223は、候補文字の選択入力を受け付ける(ステップS202)。これにより、手書文字のデジタル化を確定する。
 また、類似文字報告処理部224は、新しい類似文字の入力があるか否か判定する(ステップS211)。新しい類似文字の入力がない場合(ステップS211にて「No」の場合)には、類似文字報告処理部224は、候補文字受領処理を終了させる。
 新しい類似文字の入力がある場合(ステップS211にて「Yes」の場合)には、類似文字報告処理部224は、文字候補提案装置100に対して新たな類似文字となる情報を送信する(ステップS212)。
 以上が、候補文字受領処理のフローの例である。候補文字受領処理によれば、文字候補提案装置100から候補文字を受領して、手書文字と対比しながら候補を選択入力可能となる。また、類似文字に気づいた場合に、文字候補提案装置100へ報告し、新たに類似文字として登録するよう依頼することができる。
 図14は、類似文字登録処理のフローの例を示す図である。類似文字登録処理は、候補文字受領処理において類似文字となる情報が業務端末200から文字候補提案装置100に送信された場合に、文字候補提案装置100にて開始される。
 まず、類似文字登録処理部124は、受領した類似文字の情報が、類似文字記憶部115に既に記憶されているか否か判定する(ステップS2201)。
 受領した類似文字の情報が、類似文字記憶部115に既に記憶されていない場合(ステップS2201にて「No」の場合)には、類似文字登録処理部124は、類似文字の組み合わせを一対一に特定する(類似関係にある文字を一対一の組み合わせに分解する)(ステップS2202)。
 そして、類似文字登録処理部124は、互いに類似する文字の両方について、それぞれ互いを類似として類似文字記憶部115に格納する(ステップS2203)。
 受領した類似文字の情報が、類似文字記憶部115に既に記憶されている場合(ステップS2201にて「Yes」の場合)には、類似文字登録処理部124は、業務端末200に、登録済みである旨を通知する(ステップS2204)。
 そして、類似文字登録処理部124は、互いに類似する文字の両方について、それぞれ互いの出現頻度を所定量増加させる(ステップS2205)。
 以上が、類似文字登録処理のフローの例である。類似文字登録処理によれば、業務端末200から登録するよう依頼のあった類似文字が新たな関係であれば類似として登録し、既に登録済みのものであった場合には出現頻度を高めることができる。
 図15は、候補提示画面の例を示す図である。候補提示画面400は、手書文字認識全体処理フローのステップS20、候補文字受領処理のステップS201にて出力される画面である。目視確認を行う元データ(読取装置300で読み取った手書文字画像)が、元データ表示域401に表示され、目視確認を行う対象である候補文字は、名字候補表示域402と、名前候補表示域403に表示される。名字候補表示域402と、名前候補表示域403には、文字候補提案装置100が最も出現率が高い候補として提案した候補文字が表示される。名字候補決定ボタン404は、入力を受け付けると、名字候補表示域402に示された名字を確定させる。名前候補決定ボタン405は、入力を受け付けると、名前候補表示域403に示された名前を確定させる。
 次候補以降の候補文字は、各々、名字次候補表示域406と、名前次候補表示域407と、に出現頻度順に整列されて選択可能にリスト表示される。名字次候補表示域406と、名前次候補表示域407とは、リストした文字の選択を受け付ける。名字次候補決定ボタン408は、入力を受け付けると、名字次候補表示域406にて選択された名字を確定させる。名前次候補決定ボタン409は、入力を受け付けると、名前次候補表示域407にて選択された名前を確定させる。
 類似文字登録域410および類似文字登録域411は、それぞれ文字の入力を受け付ける。登録ボタン412は、入力を受け付けると、類似文字登録域410および類似文字登録域411に入力された文字を類似関係にある文字として受け付け、文字候補提案装置100への登録処理を開始させる。すなわち、目視確認の結果、目視作業担当者(利用者)が新たな類似文字として登録の必要性を感じる文字がある場合、類似文字登録域410および類似文字登録域411に当該文字を入力し、登録ボタン412を選択することで登録が可能となる。また、必要に応じて、戻るボタン413、次画面ボタン414への入力を受け付けると、前後の業務画面へ遷移する。
 図16は、名字候補提示例を示す図である。本実施形態を適用した手書文字識別システム1では、読取装置300および文字認識部221が誤読した場合でも、提示される候補に正解となる文字が含まれる可能性が高くなるが、このことを具体的に示す。
 正解となる「川本」(a)の名字を、OCR等の文字認識エンジンが「小木」(b)と誤読した場合、誤読である「小木」(b)に対して実存する名字との照合を行うと、本来の正解となる「川本」(a)の文字候補の順位が劣後、または候補漏れが生じる可能性がある。
 誤読である「小木」(b)を、「小」(c)と「木」(d)に文字を分解し、各々を類似文字記憶部115と照合し、それぞれ出現頻度の高い順に類似文字を特定する(e、f)。続いて、出現頻度の高い文字同士を合成した名字と、名字記憶部113とを照合することによって、候補文字(g)を選別して整列させる。これにより、誤読があった場合も、類似文字記憶部115との照合を実行することで、正解である「川本」(a)の劣後、または候補漏れを避けるとともに、文字認識率の向上が期待できる。
 以上が、実施形態に係る手書文字識別システムの例である。該実施形態に係る手書文字識別システムの例によれば、手書文字を読み取った画像について、類似する文字列候補をより適切に提案することができるため、利用者は提示された候補から選択するだけで円滑に手書文字の読取業務を行うことができる。
 また、上記実施形態の例では、手書文字の対象として氏名を例示したが、これに限られず、照合する実存文字記憶部112を差し替えることによって、住所等、あらゆる他の文字データについても適用が可能である。
 また、上記した実施形態の技術的要素は、単独で適用されてもよいし、プログラム部品とハードウェア部品のような複数の部分に分けられて適用されるようにしてもよい。
 以上、本発明について、実施形態を中心に説明した。
1・・・手書文字識別システム、50・・・ネットワーク、100・・・文字候補提案装置、110・・・記憶部、111・・・受領データ記憶部、112・・・実存文字記憶部、113・・・名字記憶部、114・・・名前記憶部、115・・・類似文字記憶部、116・・・候補文字記憶部、120・・・処理部、121・・・受託処理部、122・・・姓名判別処理部、123・・・照合処理部、124・・・類似文字登録処理部、125・・・候補文字送信処理部、130・・・通信部、200・・・業務端末、210・・・記憶部、211・・・文字記憶部、212・・・候補文字記憶部、213・・・画像記憶部、220・・・処理部、221・・・文字認識部、222・・・委託処理部、223・・・目視確認処理部、224・・・類似文字報告処理部、230・・・通信部、300・・・読取装置。

Claims (10)

  1.  文字の外観の類似関係を記憶する類似文字記憶部と、
     実存する文字列を記憶する実存文字記憶部と、
     一つ以上の文字を受信して該文字の外観の類似する文字候補の案出を受託する受託処理部と、
     受信した前記文字と外観が類似する文字の候補を、前記類似文字記憶部と照合することで特定し、前記外観が類似する文字の候補の組み合わせのうち前記実存文字記憶部に記憶された前記実存する文字列と照合する照合処理部と、
     前記照合処理部による照合の結果ヒットした前記外観が類似する文字の候補の組み合わせを候補文字として出力する候補文字送信処理部と、
     を備えることを特徴とする文字候補提案装置。
  2.  請求項1に記載の文字候補提案装置であって、
     前記候補文字を出力後、前記受託処理部が受信した前記文字のいずれかと類似する文字を受け付けると、前記類似文字記憶部に記憶されていない類似関係であれば前記類似文字記憶部に記憶させる類似文字登録処理部、
     を備えることを特徴とする文字候補提案装置。
  3.  請求項1に記載の文字候補提案装置であって、
     前記実存文字記憶部には、実存する人名の文字列が格納されており、
     前記受託処理部は、案出する前記文字候補として人名の案出を受託し、
     前記候補文字送信処理部は、前記外観が類似する文字の候補の組み合わせを人名の候補文字として出力する、
     ことを特徴とする文字候補提案装置。
  4.  請求項3に記載の文字候補提案装置であって、
     前記実存する人名の文字列は、姓と名が区分されており、
     受信した前記文字を姓と名に区分して前記照合処理部に照合させる姓名判別処理部、
     を備えることを特徴とする文字候補提案装置。
  5.  請求項4に記載の文字候補提案装置であって、
     前記姓名判別処理部は、受信した前記文字について姓と名を区切る位置を変化させて姓と名に区分した組み合わせを特定し、各組み合わせの姓と名の両方について、前記照合処理部による照合の結果ヒットを得られた場合に前記候補文字とする、
     ことを特徴とする文字候補提案装置。
  6.  請求項5に記載の文字候補提案装置であって、
     前記候補文字送信処理部は、前記候補文字を、出現頻度に応じて整列して出力する、
     ことを特徴とする文字候補提案装置。
  7.  請求項1に記載の文字候補提案装置であって、
     前記受託処理部が受信する前記文字は、手書き文字を読み取って認識した文字である、
     ことを特徴とする文字候補提案装置。
  8.  文字候補提案装置と、前記文字候補提案装置とネットワークを介して通信可能に接続される業務端末と、前記業務端末からの指示に応じて手書文字を読み取る読取装置と、を含む手書文字識別システムであって、
     前記業務端末は、前記読取装置から前記手書文字を取得して文字認識を行う文字認識部と、
     前記文字認識部により認識された文字を前記文字候補提案装置に送信して文字候補の提案を委託する委託処理部と、
     前記文字候補提案装置から出力された文字候補を表示する目視確認処理部と、を備え、
     前記文字候補提案装置は、
     文字の外観の類似関係を記憶する類似文字記憶部と、
     実存する文字列を記憶する実存文字記憶部と、
     一つ以上の文字を受信して該文字の外観の類似する文字候補の案出を受託する受託処理部と、
     受信した前記文字と外観が類似する文字の候補を、前記類似文字記憶部と照合することで特定し、前記外観が類似する文字の候補の組み合わせのうち前記実存文字記憶部に記憶された前記実存する文字列と照合する照合処理部と、
     前記照合処理部による照合の結果ヒットした前記外観が類似する文字の候補の組み合わせを候補文字として出力する候補文字送信処理部と、
     を備える、
     ことを特徴とする手書文字識別システム。
  9.  文字候補提案装置と、前記文字候補提案装置とネットワークを介して通信可能に接続される業務端末と、前記業務端末からの指示に応じて手書文字を読み取る読取装置と、を含む手書文字識別システムによる手書文字識別方法であって、
     前記業務端末は、前記読取装置から前記手書文字を取得して文字認識を行う文字認識ステップと、
     前記文字認識ステップにおいて認識された文字を前記文字候補提案装置に送信して文字候補の提案を委託する委託処理ステップと、
     前記文字候補提案装置から出力された文字候補を表示する目視確認処理ステップと、を実行し、
     前記文字候補提案装置は、
     文字の外観の類似関係を記憶する類似文字記憶部と、
     実存する文字列を記憶する実存文字記憶部と、を備え、
     一つ以上の文字を受信して該文字の外観の類似する文字候補の案出を受託する受託処理ステップと、
     受信した前記文字と外観が類似する文字の候補を、前記類似文字記憶部と照合することで特定し、前記外観が類似する文字の候補の組み合わせのうち前記実存文字記憶部に記憶された前記実存する文字列と照合する照合処理ステップと、
     前記照合処理ステップによる照合の結果ヒットした前記外観が類似する文字の候補の組み合わせを候補文字として出力する候補文字送信処理ステップと、
     を実行することを特徴とする手書文字識別方法。
  10.  コンピュータに、手書文字の識別を支援させる処理を行わせるプログラムであって、
     前記コンピュータは、
     文字の外観の類似関係を記憶する類似文字記憶部と、
     実存する文字列を記憶する実存文字記憶部と、処理部と、を備え、
     前記処理部に、
     一つ以上の文字を受信して該文字の外観の類似する文字候補の案出を受託する受託処理ステップと、
     受信した前記文字と外観が類似する文字の候補を、前記類似文字記憶部と照合することで特定し、前記外観が類似する文字の候補の組み合わせのうち前記実存文字記憶部に記憶された前記実存する文字列と照合する照合処理ステップと、
     前記照合処理ステップによる照合の結果ヒットした前記外観が類似する文字の候補の組み合わせを候補文字として出力する候補文字送信処理ステップと、
     を実施させることを特徴とするプログラム。
PCT/JP2020/011553 2019-09-09 2020-03-16 文字候補提案装置、手書文字識別システム、手書文字識別方法およびプログラム WO2021049070A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020227038076A KR102572500B1 (ko) 2019-09-09 2020-03-16 문자 후보 제안 장치, 필기 문자 식별 시스템, 필기 문자 식별 방법 및 프로그램
KR1020217000508A KR102465524B1 (ko) 2019-09-09 2020-03-16 문자 후보 제안 장치, 필기 문자 식별 시스템, 필기 문자 식별 방법 및 프로그램
CN202080003974.9A CN112789624A (zh) 2019-09-09 2020-03-16 字符候选提议装置、手写字符辨别系统、方法及程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-163641 2019-09-09
JP2019163641A JP7297610B2 (ja) 2019-09-09 2019-09-09 文字候補提案装置、手書文字識別システム、手書文字識別方法およびプログラム

Publications (1)

Publication Number Publication Date
WO2021049070A1 true WO2021049070A1 (ja) 2021-03-18

Family

ID=74864169

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/011553 WO2021049070A1 (ja) 2019-09-09 2020-03-16 文字候補提案装置、手書文字識別システム、手書文字識別方法およびプログラム

Country Status (5)

Country Link
JP (2) JP7297610B2 (ja)
KR (2) KR102572500B1 (ja)
CN (1) CN112789624A (ja)
TW (2) TWI766360B (ja)
WO (1) WO2021049070A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI814564B (zh) * 2022-08-31 2023-09-01 台灣大哥大股份有限公司 文字圖像拆分系統及其方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02195489A (ja) * 1989-01-25 1990-08-02 Hitachi Ltd 文字認識の後処理装置
JPH0338787A (ja) * 1989-07-06 1991-02-19 Oki Electric Ind Co Ltd 文字認識処理装置
JPH11328317A (ja) * 1998-05-11 1999-11-30 Nippon Telegr & Teleph Corp <Ntt> 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体
JP2015103082A (ja) * 2013-11-26 2015-06-04 沖電気工業株式会社 情報処理装置、システム、方法、及び、プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6822261B2 (ja) 2017-03-24 2021-01-27 沖電気工業株式会社 情報処理装置、プログラムおよび情報処理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02195489A (ja) * 1989-01-25 1990-08-02 Hitachi Ltd 文字認識の後処理装置
JPH0338787A (ja) * 1989-07-06 1991-02-19 Oki Electric Ind Co Ltd 文字認識処理装置
JPH11328317A (ja) * 1998-05-11 1999-11-30 Nippon Telegr & Teleph Corp <Ntt> 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体
JP2015103082A (ja) * 2013-11-26 2015-06-04 沖電気工業株式会社 情報処理装置、システム、方法、及び、プログラム

Also Published As

Publication number Publication date
TWI766360B (zh) 2022-06-01
KR20210032380A (ko) 2021-03-24
TW202115603A (zh) 2021-04-16
JP7297610B2 (ja) 2023-06-26
JP2023110102A (ja) 2023-08-08
JP7490861B2 (ja) 2024-05-27
KR102465524B1 (ko) 2022-11-11
TW202234289A (zh) 2022-09-01
KR102572500B1 (ko) 2023-08-30
JP2021043570A (ja) 2021-03-18
TWI795292B (zh) 2023-03-01
KR20220153096A (ko) 2022-11-17
CN112789624A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
US8468167B2 (en) Automatic data validation and correction
JP6881990B2 (ja) 画像処理装置とその制御方法、及びプログラム
CN101542504B (zh) 后光学字符识别处理中的形状聚类
US9158833B2 (en) System and method for obtaining document information
KR20100007722A (ko) 카메라 기반 영상의 문자 인식 및 번역 방법
US9047508B2 (en) System and method for identifying and acting upon handwritten action items
KR101840643B1 (ko) 화상처리장치 및 그 제어 방법
US8953228B1 (en) Automatic assignment of note attributes using partial image recognition results
US20150278619A1 (en) Method and system for verification by reading
US9213756B2 (en) System and method of using dynamic variance networks
JP7490861B2 (ja) 文字候補提案装置、手書文字識別システム、手書文字識別方法およびプログラム
US20220197500A1 (en) Parsing Handwriting Into Online Events
US11657367B2 (en) Workflow support apparatus, workflow support system, and non-transitory computer readable medium storing program
JP7029813B2 (ja) 辞書作成装置、辞書作成方法及び辞書作成プログラム
JP2016018454A (ja) 画像処理装置および画像処理装置の制御方法
JP7021496B2 (ja) 情報処理装置及びプログラム
US20220138259A1 (en) Automated document intake system
Lund Ensemble Methods for Historical Machine-Printed Document Recognition
JP4807486B2 (ja) 教材処理装置、教材処理方法および教材処理プログラム
JP2008152357A (ja) テキスト認識システム、テキスト認識方法、テキスト認識プログラム
JP2007280413A (ja) 財務諸表自動入力装置
JP4922030B2 (ja) 文字列検索装置、方法及びプログラム
Hari Kumar et al. Optical Letter Recognition for Roman-Text
JP2016031538A (ja) 画像処理装置、画像処理方法、及びプログラム
JPH11120294A (ja) 文字認識装置および媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20864254

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20864254

Country of ref document: EP

Kind code of ref document: A1