WO2022059556A1 - 文書検索装置 - Google Patents

文書検索装置 Download PDF

Info

Publication number
WO2022059556A1
WO2022059556A1 PCT/JP2021/032807 JP2021032807W WO2022059556A1 WO 2022059556 A1 WO2022059556 A1 WO 2022059556A1 JP 2021032807 W JP2021032807 W JP 2021032807W WO 2022059556 A1 WO2022059556 A1 WO 2022059556A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
character string
search
misrecognition
character
Prior art date
Application number
PCT/JP2021/032807
Other languages
English (en)
French (fr)
Inventor
悠 川原
拓也 南
悠 岡野
仁子 高
好成 奥野
Original Assignee
昭和電工株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 昭和電工株式会社 filed Critical 昭和電工株式会社
Priority to US18/245,061 priority Critical patent/US20230359653A1/en
Priority to CN202180061725.XA priority patent/CN116075817A/zh
Priority to JP2022550489A priority patent/JPWO2022059556A1/ja
Publication of WO2022059556A1 publication Critical patent/WO2022059556A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results

Definitions

  • the present invention relates to a document search device, a document search system, a document search program, and a document search method.
  • a document search is known in which a document is searched based on a keyword specified by a user.
  • a method called an exact match search is known, in which a character string that exactly matches a keyword is extracted.
  • search omission if the document contains typographical errors, the user may not extract what he or she intended (also called search omission), or the search result may differ from what the user intended (also called search noise). do. Therefore, there is known a method of searching after replacing characters that are assumed to be typographical errors with correct characters based on a errata prepared in advance (for example, Patent Document 1).
  • a misrecognition table in which a character string of positive recognition and a character string of misrecognition are stored, and Get the search string and A document search device having a document search unit that searches for the search character string from both a document and a character string in which the misrecognition character string included in the document is corrected to the positive recognition character string.
  • the positive recognition character string and the false recognition character string are character strings each consisting of one character.
  • the positive recognition character string and the false recognition character string are morphemes each consisting of a plurality of characters.
  • the misconversion table including a plurality of pairs of a positive recognition character string and a misrecognition character string is a character string in which the positive recognition character string and the misrecognition character string are each composed of one character.
  • the certainty of the character string in which the misrecognition character string included in the document is corrected to the correct recognition character string, and the misrecognition character string included in the document is the positive recognition character string.
  • the document search device has a document information table that stores the certainty of the string before it is modified to The document search device according to any one of [1] to [4], wherein the document search unit excludes the character string having a low certainty from the search target.
  • the certainty of the character string in which the misrecognition character string included in the document is corrected to the positive recognition character string, and the misrecognition character string included in the document are the positive recognition character string.
  • It also has a document information table that stores the certainty of the string before it is modified to The document search unit is the document search device according to any one of [1] to [4], which lowers the priority of the character string having a low certainty.
  • the document search unit has a search result display unit.
  • a document retrieval system including a document retrieval device and a user terminal.
  • the document retrieval device is A misrecognition table that stores positively recognized character strings and misrecognized character strings, Get the search string and
  • a document search system including a document search unit that searches for the search character string from both a document and a character string in which the misrecognized character string included in the document is corrected to the positively recognized character string. ..
  • a computer having a misrecognition table in which a positive recognition character string and a false recognition character string are stored.
  • the present invention can be applied to a document search for searching any one or more documents.
  • a document converted from an image of a printed or handwritten document using OCR Optical character recognition
  • the present invention is an arbitrary document created by using document creation software. It can be applied to document search to search for documents in.
  • the "document" can contain typographical errors.
  • FIG. 1 is a diagram showing an overall system configuration including a document retrieval device 10 according to an embodiment of the present invention.
  • the document retrieval system 1 includes a document retrieval device 10 and a user terminal 20.
  • the document retrieval device 10 can send and receive data to and from the user terminal 20 via an arbitrary network. Each will be described below.
  • the document search device 10 is a device (for example, a server) that performs document search processing. Later, the document retrieval device 10 will be described in detail with reference to FIG. 2.
  • the user terminal 20 is a terminal used by the user when searching for a document.
  • the user terminal 20 is a personal computer or the like.
  • document retrieval device 10 may have some or all of the functions of the user terminal 20.
  • FIG. 2 is a diagram showing a functional block of the document retrieval device 10 according to the embodiment of the present invention.
  • the document retrieval device 10 has a misrecognition table 202 and a document retrieval unit 103.
  • the misrecognition table will be described later.
  • the document retrieval device 10 can further include an OCR (Optical Character Recognition) processing unit 101, an original character string candidate generation unit 102, and a storage unit 104.
  • the document search unit 103 can further include a search result display unit 105.
  • the storage unit 104 can have a document information table 201 and a misrecognition table 202.
  • the document retrieval device 10 having the misrecognition table functions as the document retrieval unit 103 by executing the program.
  • the document retrieval device 10 having the erroneous recognition table can further function as the OCR processing unit 101, the original character string candidate generation unit 102, and the search result display unit 105 by executing the program. Each will be described below.
  • the OCR processing unit 101 extracts character string information (hereinafter, also referred to as character string information). Specifically, the OCR processing unit 101 acquires a document image (for example, an image of a handwritten document). Further, the OCR processing unit 101 performs OCR (optical character recognition) processing and extracts character string information from the acquired document image. In the case of a document created by using the document creation software, the information of the character string in the document is used.
  • character string information hereinafter, also referred to as character string information.
  • the original character string candidate generation unit 102 generates an original character string candidate (for example, a character string candidate that is assumed to have existed in the original handwritten document) based on the erroneous recognition table 202. do. Specifically, the original character string candidate generation unit 102 refers to the character strings of "correct recognition” and "misrecognition” in the misrecognition table 202, and the character string information (or document) extracted by the OCR processing unit 101. In the case of a document created using the creation software, the character string of "misrecognition" contained in the character string information in the document is corrected to the character string of "correct recognition", and the original character string candidate is generated. ..
  • the document search unit 103 performs document search processing. Specifically, the document search unit 103 acquires a character string to be searched for in the document (hereinafter, also referred to as a search character string) from the user terminal 20. Further, the document search unit 103 contains the character string information extracted by the OCR processing unit 101 (or the character string information in the document in the case of a document created by using the document creation software) and the original character string candidate generation unit 102. Search for the search string from both the original string candidates generated by.
  • the search result display unit 105 of the document search unit 103 can display the result of the document search performed by the document search unit 103.
  • the search result (for example, the document ID of the document including the search character string, the image of the handwritten document corresponding to the document including the search character string, etc.) is output to the user terminal 20.
  • the search result display unit 105 can display the literacy result used for the search and the corrected literacy result, although each item will be described later.
  • the search result display unit 105 can further display the literacy certainty and the correction certainty used in the search. Further, it is possible to display a predetermined range of the document image including the literacy range coordinates corresponding to the search character string.
  • the document information table 201 and the erroneous recognition table 202 are stored in the storage unit 104.
  • the storage unit 104 will be described in detail with reference to FIG.
  • FIG. 3 is an example of data stored in the storage unit 104 of the document retrieval device according to the embodiment of the present invention. As shown in FIG. 3, the storage unit 104 stores the document information table 201 and the misrecognition table 202. Each will be described below.
  • Document ID is an identifier for identifying a document.
  • Document name is the name of the document.
  • “Page” is information for identifying a page in which a "literacy result" exists in a document consisting of a plurality of pages.
  • Literacy range coordinates are coordinates indicating the range in which the "literacy result" exists.
  • the "literacy result” is character string information extracted from the document image by the OCR processing unit 101.
  • the character string information in the document is used.
  • the "correction candidate" is a candidate for the original character string generated by the original character string candidate generation unit 102.
  • one or a plurality of correction candidates are stored.
  • the misrecognition table 202 stores data of a pair of "correct recognition” and "misrecognition".
  • the original character string candidate generation unit 102 uses the character string information extracted by the OCR processing unit 101 (or, in the case of a document created by using the document creation software, the character string information in the document).
  • the included "misrecognition” character string is corrected to the "correct recognition” character string, and a candidate for the original character string (that is, a "correction candidate" in the document information table 201 of FIG. 3) is generated.
  • “Misrecognition” is a character string that is assumed to be an error among the character strings in the document.
  • Correct recognition is a character string corresponding to the character string stored in “misrecognition”. Specifically, “correct recognition” is a correct character string in which the character string stored in “misrecognition” should be corrected.
  • the character string of "correct recognition” and the character string of "misrecognition” may be a character string consisting of one character or a character string consisting of a plurality of characters (for example, a morpheme). ..
  • the misrecognition table 202 may be configured for each document, or may be configured for each document unit stored in the document information table 201. Further, the misrecognition table 202 may be configured for each of a plurality of similar documents such as those having a common technical field, or may be configured for each specific character string composed of a plurality of morphemes including technical terms. May be good.
  • the positive recognition character string and the false recognition character string included in the erroneous conversion table 202 may be a character string consisting of one character each, or may be a morpheme consisting of a plurality of characters each.
  • the positive recognition character string and the misrecognition character string are both a character string consisting of one character and a morphological element consisting of a plurality of characters each, a plurality of misrecognitions are made. It may be composed of the table 202.
  • the OCR processing unit 101 performs OCR processing on the acquired handwritten document image
  • the number of characters may be erroneously recognized.
  • the bias and the right component are handwritten apart, for example, “tsubo” may be mistakenly recognized as the two characters “earth” and “flat”.
  • two handwritten characters are closely handwritten, for example, "mountain bird” may be erroneously recognized as one character of "shima”.
  • misrecognition table 202 it may be stored in the misrecognition table 202 as data of a pair of "misrecognition" and "correct recognition", respectively.
  • FIG. 4 is a diagram for explaining a document retrieval (first embodiment) according to an embodiment of the present invention.
  • the first embodiment is a case where the character string of "correct recognition" and the character string of "misrecognition" stored in the misrecognition table 202 are a pair of character strings each consisting of one character.
  • # 1 and # 2 in FIG. 4 are character string data (in the case of document retrieval for searching one document) included in one document.
  • the search result display unit 105 displays a document image in a predetermined range, the displayed document image covers the range in which the "literacy result" exists. include.
  • the search result display unit 105 displays a document image in a predetermined range, the displayed document image covers the range in which the "literacy result" exists. include.
  • both the document and the character string in which the misrecognized character string in the document is corrected to the positively recognized character string are searched, so that the character can be extracted without replacing the characters. It is possible to avoid being unable to extract the character string that should be.
  • FIG. 5 is a diagram for explaining a document retrieval (second embodiment) according to an embodiment of the present invention.
  • the second embodiment is a case where the character string of "correct recognition” and the character string of "misrecognition" stored in the misrecognition table 202 are a pair of character strings each consisting of a plurality of characters. Specifically, the character string of "correct recognition” and the character string of "misrecognition” are not in character units as in the first embodiment, but in word (morpheme) units having meaning.
  • # 1 and # 2 in FIG. 5 are character string data (in the case of document retrieval for searching one document) included in one document.
  • the search result display unit 105 displays a document image in a predetermined range, the displayed document image includes an image desired by the user.
  • the search result display unit 105 displays the document image in a predetermined range, the displayed document image includes only the image desired by the user.
  • the search noise is reduced because there is no erroneous corrected literacy result such as "welfare organisms, fungi, etc.” be able to.
  • FIG. 6 is a diagram for explaining an example of a method for creating a misrecognition table 202 according to an embodiment of the present invention. (1), (2), (3), and (4) will be described in this order.
  • the original character string is a character string existing in the handwritten document
  • the OCR character string is a character string extracted by performing OCR processing on the image of the handwritten document.
  • the part where the difference between the original character string and the OCR character string occurs is extracted using an existing algorithm such as SES (ShortestEditScript).
  • SES ShortestEditScript
  • the part where the difference occurs in the OCR character string is regarded as a misrecognized character.
  • a pair of "correct recognition” and “misrecognition” is generated from the association of (3).
  • a morpheme for example, “medicine”
  • the character corresponding to the misrecognized character for example, “kai” (for example, “gaku)
  • the misrecognized character for example, "kai”
  • “medical association” is referred to as "misrecognition”.
  • the character string that could have been extracted without replacing the character cannot be extracted, but also the character string of misrecognition and the character string of positive recognition can be avoided.
  • the form element consisting of a plurality of characters, it is possible to reduce the search noise when the original character string candidate is created by using the created misrecognition table.
  • the first embodiment and the second embodiment may be combined.
  • Both the "recognition” pair of data and the data may be stored.
  • the character string of "correct recognition” consisting of multiple characters for example, a morpheme
  • FIG. 7 is a diagram for explaining a document retrieval (third embodiment) according to an embodiment of the present invention.
  • the document retrieval unit 103 can exclude literacy results and modified literacy results with low certainty from the search target, or can lower the score given to the search results.
  • the third embodiment may be combined with the first embodiment, may be combined with the second embodiment, or may be a combination of the first embodiment and the second embodiment. It may be combined.
  • # 1 and # 2 in FIG. 7 are character string data (in the case of document retrieval for searching one document) included in one document.
  • the search result display unit 105 displays the document image in a predetermined range.
  • the displayed document image includes an image desired by the user.
  • the search result display unit 105 displays the document image in a predetermined range.
  • the displayed document image includes an image desired by the user.
  • FIG. 8 is a diagram for explaining an example of relative certainty according to an embodiment of the present invention.
  • the method of calculating the certainty of FIG. 8 utilizes the fact that an unnatural sentence including a string of characters that does not make sense as Japanese is divided into many morphemes. Hereinafter, it will be described in detail.
  • the OCR character string (literacy result) includes the character string "(0) A circular object having a sodium chloride content of 4/100 or more in the Japanese finger business law".
  • the OCR character string is a character string extracted by performing OCR processing on an image of a handwritten document.
  • “misrecognition” is “finger business method”
  • "correct recognition” is “salt business method”
  • “misrecognition” is “circular object”
  • “correct recognition” is “solid substance”.
  • “Misrecognition” is "10” and “Correct recognition” is “10g”.
  • # 1 to # 3 are correct / incorrect pairs stored in the false recognition table.
  • (0), (1), (2), and (3) are morphologically analyzed.
  • morphological analysis a string of characters that does not make sense as Japanese is divided into more morphemes.
  • (0) can be divided into 22 morphemes by morphological analysis
  • (1) can be divided into 21 morphemes by morphological analysis
  • (2) can be divided into 21 morphemes by morphological analysis.
  • (3) can be divided into 23 morphemes by morphological analysis.
  • the OCR character string (literacy result) and the correction candidate having a large number of morphemes can be lowered in the certainty of the OCR character string (literacy result) and the correction candidate.
  • the certainty may be calculated by a method other than the method using morphological analysis as shown in FIG. 8 (for example, a method using natural language analysis or the like). Further, the degree of certainty may be calculated in units of lines in a document, in units of sentences, or in units of paragraphs.
  • the document is modified in units of characters or words (morphemes), and the degree of accuracy of the modification is determined in units of lines, sentences, and paragraphs in the document, so that the lines in the document are used. It is possible to judge the suitability of correction for each sentence and paragraph.
  • FIG. 9 is a diagram for explaining accuracy verification according to an embodiment of the present invention.
  • “Accuracy verification # 1 (original document)” "Accuracy verification # 2 (OCR data)”
  • “Accuracy verification # 3 mirecognition corrected OCR data (multiple candidates retained))
  • “Accuracy verification # 4 mirecognition
  • the text shown in the upper left of FIG. 9 is used as the original text, and a handwritten-style document image including handwritten characters using a childish handwritten font from the original text (above the center in FIG. 9). Shown in) was created.
  • the original text (original document) of accuracy verification # 1 the character information of the item of "salt" (Japanese site) consisting of about 13,000 characters on the multilingual Internet encyclopedia site Wikipedia (registered trademark). was used.
  • character string information was extracted from the document image, and OCR data consisting of the OCR text shown in the upper right of FIG. 9 was obtained.
  • the character string information contained in the OCR text includes misrecognition as a literacy result.
  • the misrecognition table was generated from the original text and the OCR text shown in the lower left of FIG. In the item "salt", about 900 correct / incorrect pairs were created.
  • Accuracy verification # 1 is verification of the accuracy of the search in the original document.
  • the search character string was searched from both the document and the character string in which the misrecognized character string contained in the document was corrected to the correct recognition character string. That is, the search was performed from both the OCR data, which is the OCR correction candidate holding data, and a plurality of original character string candidates in which the erroneous recognition character string included in the OCR data was corrected to the positive recognition character string.
  • Accuracy verification # 3 will be described with reference to FIG.
  • Recall also called recall rate or sensitivity
  • FIG. 10 is a diagram for explaining accuracy verification (accuracy verification # 2) according to an embodiment of the present invention.
  • accuracy verification # 2 the "correct answer data” (that is, the data of the original document) shown in the upper left of FIG. 10 is collated with the "OCR data” (that is, the data of the OCR document) shown in the upper right of FIG. did. Specifically, the procedure for verifying the accuracy will be described. If each word (for example, “sodium chloride”, “rock salt”, etc.) exists in the first line of the correct answer data and also exists in the first line of the OCR data, it is counted as TP and exists in the first line of the correct answer data.
  • TP the first line of the correct answer data
  • FIG. 11 is a diagram for explaining accuracy verification (accuracy verification # 3) according to an embodiment of the present invention.
  • the correct answer data that is, the data of the original document
  • a method of creating erroneous recognition corrected OCR data will be described.
  • For each row of OCR data that is, data of OCR document
  • correction candidates are generated based on the misrecognition table (in the example of FIG. 11, "salt-containing" is corrected to "rock salt” and “salt” is changed to "”. "Correct to” etc.).
  • the OCR data and the generated correction candidate are concatenated on one line with a delimiter ("@@@" in the example of FIG. 11). Since the procedure for accuracy verification is the same as that for accuracy verification # 2, the description thereof will be omitted.
  • FIG. 12 is a diagram for explaining accuracy verification (accuracy verification # 4) according to an embodiment of the present invention.
  • accuracy verification # 4 the correct answer data (that is, the data of the original document) and the "misrecognition-corrected OCR data (retention of multiple candidates, retention of certainty)" shown at the top in FIG. 12 were collated. Specifically, a method of creating erroneous recognition corrected OCR data (holding multiple candidates, holding certainty) will be described. Similar to accuracy verification # 3, correction candidates are generated based on the misrecognition table for each row of OCR data (that is, data of OCR document) (in the example of FIG. 12, “salt-containing” is changed to "rock salt”. Correct to, "salt” to "”, etc.).
  • FIG. 13 is a diagram for comparing accuracy verification according to an embodiment of the present invention.
  • FIG. 13 shows the above accuracy verification # 1 (“# 1 original document” in FIG. 9), accuracy verification # 2 (“# 2 OCR data” in FIG. 10), and accuracy verification # 3 (“# 3 error” in FIG. 11).
  • accuracy verification # 4 (“# 4 Misrecognition-corrected OCR data (retention of multiple candidates, retention of certainty)
  • Fig. 12 Indicates "F1 value”.
  • the F1 value of the first embodiment and the second embodiment is the F1 value of "# 2 OCR document". It became higher than. Further, the F1 value of "# 4 misrecognition corrected OCR data (retention of multiple candidates, retention of certainty)" in the third embodiment is F1 of "# 3 misrecognition corrected OCR data (retention of multiple candidates)". It became higher than the value.
  • FIG. 14 is a flowchart showing a flow of a document search process according to an embodiment of the present invention.
  • step 11 (S11) the OCR processing unit 101 extracts the character string information. Specifically, the OCR processing unit 101 acquires a document image (for example, an image of a handwritten document). Next, the OCR processing unit 101 performs OCR (optical character recognition) processing and extracts character string information from the acquired document image. In the case of a document created by using the document creation software, the character string information in the document is used.
  • OCR optical character recognition
  • step 12 (S12) the original character string candidate generation unit 102 generates the original character string candidate based on the erroneous recognition table 202.
  • the original character string candidate generation unit 102 refers to the character strings of "correct recognition” and “misrecognition” in the misrecognition table 202, and refers to the character of "misrecognition” included in the character string information of S11. Modify the column to a "correctly recognized” string and generate a candidate for the original string.
  • step 13 (S13) the document retrieval unit 103 scans the character string information in S11 and the candidate of the original character string generated in S12. Specifically, the document search unit 103 searches for the search character string acquired from the user terminal 20 from the character string information of S11 and the candidate of the original character string of S12.
  • step 14 the search result display unit 105 included in the document search unit 103 has a search result (for example, a document ID of a document including a search character string and an image of a handwritten document corresponding to the document including the search character string). Etc.) is output to the user terminal 20.
  • a search result for example, a document ID of a document including a search character string and an image of a handwritten document corresponding to the document including the search character string.
  • Etc. is output to the user terminal 20.
  • both the document and the character string in which the misrecognized character string in the document is corrected to the positively recognized character string are searched. Therefore, it is possible to avoid being unable to extract the character string that should have been extracted without replacing the character.
  • the search noise can be reduced by using the erroneous recognition character string and the positive recognition character string as morphemes. In addition, search noise can be reduced by excluding those with low certainty or lowering the priority.
  • FIG. 15 is a hardware configuration diagram of a document retrieval device 10 and a user terminal 20 according to an embodiment of the present invention.
  • the document search device 10 and the user terminal 20 have a CPU (Central Processing Unit) 1001, a ROM (Read Only Memory) 1002, and a RAM (Random Access Memory) 1003.
  • the CPU 1001, ROM 1002, and RAM 1003 form a so-called computer.
  • the document retrieval device 10 and the user terminal 20 can have an auxiliary storage device 1004, a display device 1005, an operation device 1006, an I / F (Interface) device 1007, and a drive device 1008.
  • the hardware of the document retrieval device 10 and the user terminal 20 are connected to each other via the bus B.
  • the CPU 1001 is an arithmetic device that executes various programs installed in the auxiliary storage device 1004.
  • ROM 1002 is a non-volatile memory.
  • the ROM 1002 functions as a main storage device for storing various programs, data, and the like necessary for the CPU 1001 to execute various programs installed in the auxiliary storage device 1004.
  • the ROM 1002 functions as a main storage device for storing boot programs such as BIOS (Basic Input / Output System) and EFI (Extensible Firmware Interface).
  • RAM 1003 is a volatile memory such as DRAM (Dynamic Random Access Memory) or SRAM (Static Random Access Memory).
  • the RAM 1003 functions as a main storage device that provides a work area to be expanded when various programs installed in the auxiliary storage device 1004 are executed by the CPU 1001.
  • the auxiliary storage device 1004 is an auxiliary storage device that stores various programs and information used when various programs are executed.
  • the display device 1005 is a display device that displays the internal state of the document retrieval device 10 and the user terminal 20.
  • the operation device 1006 is an input device in which a person who operates the document search device 10 and the user terminal 20 inputs various instructions to the document search device 10 and the user terminal 20.
  • the I / F device 1007 is a communication device for connecting to a network and communicating with other devices.
  • the drive device 1008 is a device for setting the recording medium 1009.
  • the recording medium 1009 referred to here includes a medium such as a CD-ROM, a flexible disk, a magneto-optical disk, or the like, which records information optically, electrically, or magnetically. Further, the recording medium 1009 may include a semiconductor memory for electrically recording information such as an EPROM (ErasableProgrammableReadOnlyMemory) and a flash memory.
  • EPROM ErasableProgrammableReadOnlyMemory
  • the various programs installed in the auxiliary storage device 1004 are installed, for example, by setting the distributed recording medium 1009 in the drive device 1008 and reading the various programs recorded in the recording medium 1009 by the drive device 1008. Will be done.
  • various programs installed in the auxiliary storage device 1004 may be installed by being downloaded from the network via the I / F device 1007.
  • Document search system 10 Document search device 20 User terminal 101 OCR processing unit 102 Original character string candidate generation unit 103 Document search unit 104 Storage unit 105 Search result display unit 201 Document information table 202 False recognition table 1001 CPU 1002 ROM 1003 RAM 1004 Auxiliary storage device 1005 Display device 1006 Operation device 1007 I / F device 1008 Drive device 1009 Recording medium

Abstract

誤字を含む文書における文書検索の精度を向上させる。本発明の一実施形態に係る文書検索装置は、正認識の文字列と誤認識の文字列とが記憶された誤認識テーブルと、検索文字列を取得し、文書と、前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正した文字列と、の両方から前記検索文字列を検索する、文書検索部と、を有する。

Description

文書検索装置
 本願は、日本特許庁に2020年9月16日に出願された基礎出願2020-155507号の優先権を主張するものであり、その全内容を参照によりここに援用する。
 本発明は、文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法に関する。
 従来、ユーザが指定したキーワードをもとに文書を検索する文書検索が知られている。文書検索において、キーワードと完全に一致する文字列を抽出する完全一致検索と呼ばれる手法が知られている。完全一致検索では、文書が誤字を含んでいると、ユーザが意図したものの未抽出(検索漏れとも呼ばれる)が生じたり、ユーザが意図したものとは異なる検索結果(検索ノイズとも呼ばれる)が生じたりする。そのため、事前に用意した正誤表に基づいて、誤字であると想定される文字を正しい文字に置き換えたうえで検索する手法が知られている(例えば、特許文献1)。
特開2007-323414号公報
 しかしながら、そのような正誤表に基づく文字の置き換えにより、正しい文字を誤まった文字にしてしまうことがある。つまり、正誤表に基づいて文字を置き換えなければ抽出できたはずの文字列を抽出することができなくなってしまう。
 そこで、本発明では、誤字を含む文書における文書検索の精度を向上させることを目的とする。
[1]正認識の文字列と誤認識の文字列とが記憶された誤認識テーブルと、
 検索文字列を取得し、
 文書と、前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正した文字列と、の両方から前記検索文字列を検索する、文書検索部と
 を有する、文書検索装置。
[2]前記正認識の文字列および前記誤認識の文字列は、それぞれ1つの文字からなる文字列である、[1]に記載の文書検索装置。
[3]前記正認識の文字列および前記誤認識の文字列は、それぞれ複数の文字からなる形態素である、[1]に記載の文書検索装置。
[4]複数の、正認識の文字列および誤認識の文字列の対を含む誤変換テーブルは、前記正認識の文字列および前記誤認識の文字列が、それぞれ1つの文字からなる文字列である場合と、それぞれ複数の文字からなる形態素である場合と、の両方を含む、[1]に記載の文書検索装置。
[5]前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正した文字列の確信度、および、前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正する前の文字列の確信度が記憶された文書情報テーブルをさらに有し、
 前記文書検索部は、前記確信度が低い文字列を検索の対象から除外する、[1]から[4]のいずれかに記載の文書検索装置。
[6]前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正した文字列の確信度、および、前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正する前の文字列の確信度が記憶された文書情報テーブルをさらに有し、
 前記文書検索部は、前記確信度が低い文字列の優先順位を下げる、[1]から[4]のいずれかに記載の文書検索装置。
[7]前記文書検索部が、検索結果表示部を有し、
 前記検索結果表示部は、前記検索結果を表示する、[1]から[6]のいずれか一項に記載の文書検索装置。
[8]文書検索装置とユーザ端末とを含む文書検索システムであって、
 前記文書検索装置は、
 正認識の文字列と誤認識の文字列とが記憶された誤認識テーブルと、
 検索文字列を取得し、
 文書と、前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正した文字列と、の両方から前記検索文字列を検索する、文書検索部と、を有する、文書検索システム。
[9]正認識の文字列と誤認識の文字列とが記憶された誤認識テーブルを有するコンピュータを、
 検索文字列を取得し、
 文書と、前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正した文字列と、の両方から前記検索文字列を検索する、文書検索部、として機能させるための文書検索プログラム。
[10]正認識の文字列と誤認識の文字列とが記憶された誤認識テーブルを有する文書検索装置が実行する方法であって、
 検索文字列を取得するステップと、
 文書と、前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正した文字列と、の両方から前記検索文字列を検索するステップと
 を含む文書検索方法。
 本発明では、誤字を含む文書における文書検索の精度を向上させることができる。
本発明の一実施形態に係る文書検索装置を含む全体のシステム構成を示す図である。 本発明の一実施形態に係る文書検索装置の機能ブロックを示す図である。 本発明の一実施形態に係る文書検索装置の記憶部に記憶されているデータの一例である。 本発明の一実施形態に係る文書検索(第1の実施形態)について説明するための図である。 本発明の一実施形態に係る文書検索(第2の実施形態)について説明するための図である。 本発明の一実施形態に係る誤認識テーブルの作成方法の一例について説明するための図である。 本発明の一実施形態に係る文書検索(第3の実施形態)について説明するための図である。 本発明の一実施形態に係る相対的な確信度の一例について説明するための図である。 本発明の一実施形態に係る精度検証について説明するための図である。 本発明の一実施形態に係る精度検証について説明するための図である。 本発明の一実施形態に係る精度検証について説明するための図である。 本発明の一実施形態に係る精度検証について説明するための図である。 本発明の一実施形態に係る精度検証を比較するための図である。 本発明の一実施形態に係る文書の検索の処理の流れを示すフローチャートである。 本発明の一実施形態に係る文書検索装置、ユーザ端末のハードウェア構成を示す図である。
 以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。
<用語の説明>
 本発明は、任意の1つまたは複数の文書を検索する文書検索に適用することができる。本明細書では、OCR(Optical character recognition)を用いて活字または手書きの文書の画像から変換された文書の場合を説明するが、本発明は、文書作成ソフトウェアを用いて作成された文書等の任意の文書を検索する文書検索に適用することができる。「文書」は、誤字を含みうる。
<システム構成>
 図1は、本発明の一実施形態に係る文書検索装置10を含む全体のシステム構成を示す図である。図1に示されているように、文書検索システム1は、文書検索装置10と、ユーザ端末20と、を含む。文書検索装置10は、任意のネットワークを介してユーザ端末20とデータを送受信することができる。以下、それぞれについて説明する。
 文書検索装置10は、文書検索の処理を行う装置(例えば、サーバ)である。後段で、図2を参照しながら文書検索装置10について詳細に説明する。
 ユーザ端末20は、文書を検索するときにユーザが利用する端末である。例えば、ユーザ端末20は、パーソナルコンピュータ等である。
 なお、文書検索装置10がユーザ端末20の一部または全部の機能を有するようにしてもよい。
<文書検索装置10の機能ブロック>
 図2は、本発明の一実施形態に係る文書検索装置10の機能ブロックを示す図である。図2に示されているように、文書検索装置10は、誤認識テーブル202と、文書検索部103とを有する。誤認識テーブルについては後述する。文書検索装置10は、さらに、OCR(Optical Character Recognition)処理部101と、元文字列候補生成部102と、記憶部104と、を有することができる。文書検索部103は、さらに、検索結果表示部105を有することができる。記憶部104は、文書情報テーブル201および誤認識テーブル202を有することができる。また、誤認識テーブルを有する文書検索装置10は、プログラムを実行することで、文書検索部103として機能する。誤認識テーブルを有する文書検索装置10は、プログラムを実行することで、さらに、OCR処理部101と、元文字列候補生成部102と、検索結果表示部105と、して機能することができる。以下、それぞれについて説明する。
 OCR処理部101は、文字列の情報(以下、文字列情報ともいう)を抽出する。具体的には、OCR処理部101は、文書画像(例えば、手書きの文書の画像)を取得する。また、OCR処理部101は、OCR(光学文字認識)の処理を行い、取得された文書画像から文字列の情報を抽出する。なお、文書作成ソフトウェアを用いて作成された文書の場合、文書内の文字列の情報が用いられる。
 元文字列候補生成部102は、誤認識テーブル202をもとに、元の文字列の候補(例えば、元となった手書きの文書に存在したと想定される文字列の候補である)を生成する。具体的には、元文字列候補生成部102は、誤認識テーブル202の「正認識」および「誤認識」の文字列を参照して、OCR処理部101が抽出した文字列情報(あるいは、文書作成ソフトウェアを用いて作成された文書の場合、文書内の文字列情報)に含まれる「誤認識」の文字列を「正認識」の文字列に修正し、元の文字列の候補を生成する。
 文書検索部103は、文書検索の処理を行う。具体的には、文書検索部103は、文書内で検索する文字列(以下、検索文字列ともいう)を、ユーザ端末20から取得する。また、文書検索部103は、OCR処理部101が抽出した文字列情報(あるいは、文書作成ソフトウェアを用いて作成された文書の場合、文書内の文字列情報)と、元文字列候補生成部102が生成した元の文字列の候補と、の両方から、検索文字列を検索する。
 また、文書検索部103が有する検索結果表示部105は、文書検索部103が行った文書検索の結果を表示することができる。検索の結果(例えば、検索文字列を含む文書の文書ID、検索文字列を含む文書に対応する手書きの文書の画像等)を、ユーザ端末20に出力する。
 具体的には、検索結果表示部105は、それぞれの項目は後述するが、検索に用いられた識字結果と修正識字結果とを表示することができる。検索結果表示部105は、さらに、検索に用いられた識字確信度と修正確信度とを表示することができる。また、文書画像の、検索文字列に対応する識字範囲座標を含む所定の範囲を表示することができる。
 記憶部104には、文書情報テーブル201および誤認識テーブル202が記憶されている。以下、図3を参照しながら、記憶部104について詳細に説明する。
 図3は、本発明の一実施形態に係る文書検索装置の記憶部104に記憶されているデータの一例である。図3に示されているように、記憶部104には、文書情報テーブル201および誤認識テーブル202が記憶されている。以下、それぞれについて説明する。
<文書情報テーブル>
 文書情報テーブル201には、文書ごとに、「文書ID」、「文書名」、「頁」、「識字範囲座標」、「識字結果」、「識字確信度」、「修正候補」、「修正確信度」のデータが記憶されている。
 「文書ID」は、文書を特定するための識別子である。
 「文書名」は、文書の名称である。
 「頁」は、複数の頁からなる文書の場合、文書内で「識字結果」が存在する頁を特定するための情報である。
 「識字範囲座標」は、「識字結果」が存在する範囲を示す座標である。
 「識字結果」は、OCR処理部101が文書画像から抽出した文字列情報である。なお、文書作成ソフトウェアを用いて作成された文書の場合、文書内の文字列情報が用いられる。
 「識字確信度」は、「識字結果」の正確さの度合いである。詳細については、図8を参照しながら説明する。
 「修正候補」は、元文字列候補生成部102が生成した元の文字列の候補である。なお、1つまたは複数の修正候補が記憶される。
 「修正確信度」は、それぞれの「修正候補」の正確さの度合いである。詳細については、図8を参照しながら説明する。
<誤認識テーブル>
 誤認識テーブル202には、「正認識」と「誤認識」のペアのデータが記憶されている。なお、上述したように、元文字列候補生成部102が、OCR処理部101が抽出した文字列情報(あるいは、文書作成ソフトウェアを用いて作成された文書の場合、文書内の文字列情報)に含まれる「誤認識」の文字列を「正認識」の文字列に修正し、元の文字列の候補(つまり、図3の文書情報テーブル201の「修正候補」)を生成する。
 「誤認識」は、文書内の文字列のうち、誤りであると想定される文字列である。
 「正認識」は、「誤認識」に記憶されている文字列に対応する文字列である。具体的には、「正認識」は、「誤認識」に記憶されている文字列が修正されるべき正しい文字列である。
 なお、「正認識」の文字列および「誤認識」の文字列は、1つの文字からなる文字列であってもよいし、複数の文字からなる文字列(例えば、形態素)であってもよい。
 誤認識テーブル202は、文書ごとに構成されてもよいし、文書情報テーブル201に記憶されている全ての文書の単位で構成されてもよい。また、誤認識テーブル202は、技術分野が共通する等の類似する複数の文書ごとに構成されてもよいし、技術用語を含む、複数の形態素で構成される特定の文字列ごとに構成されてもよい。
 また、誤変換テーブル202が含む正認識の文字列および誤認識の文字列は、それぞれ1つの文字からなる文字列であってもよく、または、それぞれ複数の文字からなる形態素であってもよい。正認識の文字列および誤認識の文字列が、それぞれ1つの文字からなる文字列である場合と、それぞれ複数の文字からなる形態素である場合と、の両方を含む場合には、複数の誤認識テーブル202で構成されてもよい。
 また、OCR処理部101において、取得した手書きの文書の画像に対してOCR処理を行った際に、文字数が誤って認識されることがある。偏と旁が離れて手書きされていたときに、例えば、「坪」が「土」と「平」の二文字として誤認識される場合もある。また、逆の場合として、手書きの二文字が密接して手書きされていたときに、例えば、「山鳥」が「嶋」の一文字として誤認識される場合もある。このような誤認識の場合も、それぞれ「誤認識」と「正認識」のペアのデータとして誤認識テーブル202に記憶されてもよい。
 以下、図4を参照しながら文書検索の第1の実施形態を説明し、図5および図6を参照しながら文書検索の第2の実施形態を説明し、図7および図8を参照しながら文書検索の第3の実施形態を説明する。
<第1の実施形態>
 図4は、本発明の一実施形態に係る文書検索(第1の実施形態)について説明するための図である。第1の実施形態は、誤認識テーブル202に記憶されている「正認識」の文字列および「誤認識」の文字列が、それぞれ1つの文字からなる文字列のペアである場合である。図4中の#1および#2は、1つの文書に含まれる文字列のデータ(1つの文書を検索する文書検索の場合)である。
 図4の例では、「誤認識」が"原"であり「正認識」が"厚"であり、「誤認識」が"原"であり「正認識」が"康"であったとする。また、「識字結果」が、#1では"原生労働省だけでなく"であり、#2では"原生生物は、真菌類なども"であったとする。そうすると、「修正識字結果(図3の文書情報テーブル201の「修正候補」)」は、#1では"厚生労働省だけでなく"および"康生労働省だけでなく"であり、#2では"厚生生物は、真菌類なども"および"康生生物は、真菌類なども"である。また、#1の検索文字列が「厚生労働省」、「厚生」であり、#2の検索文字列が「原生生物」、「原生」であったとする。
 #1において、検索の対象が識字結果だけであるとき、図4の左下の"修正前の検索結果"に示されるように、検索文字列の「厚生労働省」、「厚生」を文書内から抽出することができない(×)。本発明のように検索の対象が識字結果と修正識字結果との両方であるとき、図4の右下の"修正後の検索結果"に示されるように、検索文字列の「厚生労働省」、「厚生」を文書内から抽出することができる(HIT)。ただし、第1の実施形態では、検索文字列として「原生」が入力されたときに"原生労働省だけでなく"が抽出されてしまう(誤HIT)。
 検索の対象が識字結果と修正識字結果との両方である場合、検索結果表示部105が所定の範囲の文書画像を表示したとき、表示された文書画像は、「識字結果」が存在する範囲を含む。
 #2において、検索の対象が識字結果だけであるとき、図4の左下の"修正前の検索結果"に示されるように、検索文字列の「原生生物」、「原生」を文書内から抽出することができる(HIT)。本発明のように検索の対象が識字結果と修正識字結果との両方であるとき、図4の右下の"修正後の検索結果"に示されるように、検索文字列の「原生生物」、「原生」を文書内から抽出することができる(HIT)。ただし、第1の実施形態では、検索文字列として「厚生」が入力されたときに"厚生生物は、真菌類なども"が抽出されてしまう(誤HIT)。
 検索の対象が識字結果と修正識字結果との両方である場合、検索結果表示部105が所定の範囲の文書画像を表示したとき、表示された文書画像は、「識字結果」が存在する範囲を含む。
 このように、第1の実施形態では、文書と、文書内の誤認識の文字列を正認識の文字列に修正した文字列と、の両方を検索するので、文字を置き換えなければ抽出できたはずの文字列を抽出することができなくなってしまうことを避けることができる。
<第2の実施形態>
 図5は、本発明の一実施形態に係る文書検索(第2の実施形態)について説明するための図である。第2の実施形態は、誤認識テーブル202に記憶されている「正認識」の文字列および「誤認識」の文字列が、それぞれ複数の文字からなる文字列のペアである場合である。具体的には、「正認識」の文字列および「誤認識」の文字列が、第1の実施形態のように文字単位ではなく、意味をもつ単語(形態素)単位である。図5中の#1および#2は、1つの文書に含まれる文字列のデータ(1つの文書を検索する文書検索の場合)である。
 図5の例では、「誤認識」が"原生労働省"であり「正認識」が"厚生労働省"であり、「誤認識」が"健原"であり「正認識」が"健康"であったとする。また、「識字結果」が、#1では"原生労働省だけでなく"であり、#2では"原生生物は、真菌類なども"であったとする。そうすると、「修正識字結果(図3の文書情報テーブル201の「修正候補」)」は、#1では"厚生労働省だけでなく"であり、#2では修正識字結果は無い。また、#1の検索文字列が「厚生労働省」、「厚生」であり、#2の検索文字列が「原生生物」、「原生」であったとする。
 #1において、検索の対象が識字結果だけであるとき、図5の左下の"修正前の検索結果"に示されるように、検索文字列の「厚生労働省」、「厚生」を文書内から抽出することができない(×)。本発明のように検索の対象が識字結果と修正識字結果との両方であるとき、図5の右下の"上記技術での検索結果"に示されるように、検索文字列の「厚生労働省」、「厚生」を文書内から抽出することができる(HIT)。ただし、第2の実施形態では、検索文字列として「原生」が入力されたときに"原生労働省だけでなく"が抽出されてしまう(誤HIT)。
 検索の対象が識字結果と修正識字結果との両方である場合、検索結果表示部105が所定の範囲の文書画像を表示したとき、表示された文書画像は、ユーザが所望する画像を含む。
 #2において、検索の対象が識字結果だけであるとき、図5の左下の"修正前の検索結果"に示されるように、検索文字列の「原生生物」、「原生」を文書内から抽出することができる(HIT)。本発明のように検索の対象が識字結果と修正識字結果との両方であるとき、図5の右下の"上記技術での検索結果"に示されるように、検索文字列の「原生生物」、「原生」を文書内から抽出することができる(HIT)。
 検索の対象が識字結果と修正識字結果との両方である場合、検索結果表示部105が所定の範囲の文書画像を表示したとき、表示された文書画像は、ユーザが所望する画像のみを含む。
 このように、第2の実施形態では、検索文字列として「厚生」が入力されたとしても、"厚生生物は、真菌類なども"という誤った修正識字結果が無いので、検索ノイズを低減することができる。
 図6は、本発明の一実施形態に係る誤認識テーブル202の作成方法の一例について説明するための図である。(1)、(2)、(3)、(4)の順に説明する。なお、元文字列は、手書きの文書に存在する文字列であり、OCR文字列は、手書きの文書の画像にOCRの処理を行うことにより抽出された文字列である。
 まず、(1)において、元文字列とOCR文字列の差分が生じている箇所をSES(Shortest Edit Script)等の既存のアルゴリズムを用いて抽出する。OCR文字列内の差分が生じている箇所を誤認識文字とする。
 次に、(2)において、形態素解析して、元文字列を形態素に分割する。
 次に、(3)において、(2)で分割した形態素と、(1)で抽出した誤認識文字と、を紐づける。
 次に、(4)において、(3)の紐づけから、「正認識」と「誤認識」のペアを生成する。具体的には、形態素(例えば、"医学")を「正認識」とする。また、形態素(例えば、"医学")のうち誤認識文字(例えば、"会")に対応する文字(例えば、"学")を、誤認識文字(例えば、"会")に置換したもの(例えば、"医会")を「誤認識」とする。
 このように、第2の実施形態では、文字を置き換えなければ抽出できたはずの文字列を抽出することができなくなってしまうことを避けるだけでなく、誤認識の文字列および正認識の文字列を複数の文字からなる形態素にすることによって、作成した誤認識テーブルを用いて元の文字列の候補を作成したとき検索ノイズを低減することができる。
 なお、第1の実施形態と第2の実施形態とを組み合わせてもよい。具体的には、誤認識テーブル202に、1つの文字からなる「正認識」と「誤認識」のペアのデータと、複数の文字からなる(例えば、形態素である)「正認識」と「誤認識」のペアのデータと、の両方が記憶されていてもよい。例えば、1つの文字からなる「正認識」と「誤認識」のペアにより修正された文字列のうち、複数の文字からなる(例えば、形態素である)「正認識」の文字列を検索の対象として採用するようにしてもよい。
<第3の実施形態>
 図7は、本発明の一実施形態に係る文書検索(第3の実施形態)について説明するための図である。第3の実施形態では、文書検索部103は、確信度が低い識字結果や修正識字結果を、検索の対象から除外する、あるいは、検索の結果に付与するスコアを低くすることができる。なお、第3の実施形態は、第1の実施形態と組み合わせてもよいし、第2の実施形態と組み合わせてもよいし、第1の実施形態と第2の実施形態とを組み合わせたものと組み合わせてもよい。図7中の#1および#2は、1つの文書に含まれる文字列のデータ(1つの文書を検索する文書検索の場合)である。
 図7の例では、「誤認識」が"原生労働省"であり「正認識」が"厚生労働省"であり、「誤認識」が"原"であり「正認識」が"康"であったとする。また、「識字結果」およびその確信度が、#1では"原生労働省だけでなく(識字確信度:0.5)"であり、#2では"原生生物は、真菌類なども(識字確信度:0.9)"であったとする。また、「修正識字結果(図3の文書情報テーブル201の「修正候補」)」およびその確信度が、#1では"厚生労働省だけでなく(修正確信度:0.8)"および"康生労働省だけでなく(修正確信度:0.3)"であり、#2では"康生生物は、真菌類なども(修正確信度:0.6)"であったとする。また、#1の検索文字列が「厚生労働省」、「厚生」であり、#2の検索文字列が「原生生物」、「原生」であったとする。
 #1において、検索の対象が識字結果だけであるとき、図7の左下の"修正前の検索結果"に示されるように、検索文字列の「厚生労働省」、「厚生」を文書内から抽出することができない(×)。本発明のように検索の対象が識字結果と修正識字結果との両方から、確信度が低い識字結果や修正識字結果を検索の対象から除外したものであるとき、図7の右下の"上記技術での検索結果"に示されるように、検索文字列の「厚生労働省」、「厚生」を文書内から抽出することができる(HIT)。さらに、第3の実施形態では、検索文字列として「原生」が入力されたとしても、"原生労働省だけでなく"という確信度が低いものが検索されないので、検索ノイズを低減することができる。
 検索の対象が識字結果と修正識字結果との両方から、確信度が低い識字結果や修正識字結果を検索の対象から除外したものである場合、検索結果表示部105が所定の範囲の文書画像を表示したとき、表示された文書画像は、ユーザが所望する画像を含む。
 #2において、検索の対象が識字結果だけであるとき、図7の左下の"修正前の検索結果"に示されるように、検索文字列の「原生生物」、「原生」を文書内から抽出することができる(HIT)。本発明のように検索の対象が識字結果と修正識字結果との両方から、確信度が低い識字結果や修正識字結果を検索の対象から除外したものであるとき、図7の右下の"上記技術での検索結果"に示されるように、検索文字列の「原生生物」、「原生」を文書内から抽出することができる(HIT)。
 検索の対象が識字結果と修正識字結果との両方から、確信度が低い識字結果や修正識字結果を検索の対象から除外したものである場合、検索結果表示部105が所定の範囲の文書画像を表示したとき、表示された文書画像は、ユーザが所望する画像を含む。
 図8は、本発明の一実施形態に係る相対的な確信度の一例について説明するための図である。図8の確信度を算出する手法では、日本語として意味を成しえない文字の列を含む、不自然な文は多くの形態素に分割されてしまうことを利用している。以下、詳細に説明する。
 例えば、OCR文字列(識字結果)として、"(0)日本の指事業法にあっては塩化ナトリウムの含有量が100分の4以上の回形物"という文字列があったとする。なお、OCR文字列は、手書きの文書の画像にOCRの処理を行うことにより抽出された文字列である。また、「誤認識」が"指事業法"であり「正認識」が"塩事業法"であり、「誤認識」が"回形物"であり「正認識」が"固形物"であり、「誤認識」が"10"であり「正認識」が"10g"であったとする。図8において、#1~#3は、誤認識テーブルに記憶された正誤ペアである。
 そうすると、図8の例では、OCR文字列を正誤ペアの#1~#3のいずれか1つを用いて、修正候補を生成すると、"(1)日本の塩事業法にあっては塩化ナトリウムの含有量が100分の4以上の回形物"、"(2)日本の指事業法にあっては塩化ナトリウムの含有量が100分の4以上の固形物"、"(3)日本の指事業法にあっては塩化ナトリウムの含有量が10g0分の4以上の回形物"が修正候補となる。
 次に、上記の(0)、(1)、(2)、(3)を形態素解析する。形態素解析により、日本語として意味を成しえない文字の列は、より多くの形態素に分割される。具体的には、(0)を形態素解析すると22個の形態素に分割でき、(1)を形態素解析すると21個の形態素に分割でき、(2)を形態素解析すると21個の形態素に分割でき、(3)を形態素解析すると23個の形態素に分割できたとする。図8の確信度を算出する手法では、形態素の個数が多いOCR文字列(識字結果)および修正候補ほど、そのOCR文字列(識字結果)および修正候補の確信度を低くすることができる。
 なお、確信度は、図8のような形態素解析を用いた手法以外の手法(例えば、自然言語解析等を用いた手法)によって算出されてもよい。また、確信度は、文書内の行単位で算出されてもよいし、文単位で算出されてもよいし、段落単位で算出されてもよい。
 文書画像から文字列情報が取得される場合、確信度を文字単位で算出する手法としては、文字画像類似度を用いる手法を挙げることができる。
 確信度が文単位で算出される場合、確信度を算出する手法としては、名詞と動詞がこの順番であることが自然であるといったような、品詞の順番に着目した品詞順番解析を用いる手法を挙げることができる。
 このように、第3の実施形態では、文字を置き換えなければ抽出できたはずの文字列を抽出することができなくなってしまうことを避けるだけでなく、確信度が低いものを除外したり優先順位を下げたりすることによって、検索ノイズを低減することができる。また、第3の実施形態では、文字や単語(形態素)単位で文書を修正して、その修正の正確さの度合いを文書内の行、文、段落の単位で判定するので、文書内の行、文、段落ごとに修正の適否を判定することができる。
<検索の精度の検証>
 図9は、本発明の一実施形態に係る精度検証について説明するための図である。「精度検証#1(元文書)」、「精度検証#2(OCRデータ)」、「精度検証#3(誤認識修正済OCRデータ(複数候補保持))」、「精度検証#4(誤認識修正済OCRデータ(複数候補保持、確信度保持))」の4つの精度検証を行った。
 具体的な手順としては、まず、図9中の左上に示すテキストを元テキストとし、元テキストから、稚拙な手書きフォントを用いて手書き文字を含む手書き風の文書画像(図9中の中央の上に示す)を作成した。ここで、精度検証#1の元テキスト(元文書)としては、多言語インターネット百科事典サイトWikipedia(登録商標)における、約1.3万字からなる「塩」(日本語サイト)の項目の文字情報を用いた。
 次いで、OCR処理ツールを用いて、文書画像から文字列の情報を抽出し、図9中の右上に示すOCRテキストからなるOCRデータを得た。OCRテキストが含む文字列情報は、識字結果として誤認識を含む。
 前述した誤認識テーブルの作成方法に従って、図9中の左下に示す、元テキストとOCRテキストから誤認識テーブルを生成した。項目「塩」においては、約900の正誤ペアを作成した。
 精度検証#1は、元文書における検索の精度の検証である。
 精度検証#2では、誤認識テーブルを用いず、誤認識を含んだままのOCRデータから検索文字列の検索を行った。精度検証#2については、図10を参照しながら説明する。
 精度検証#3では、文書と、文書に含まれる誤認識の文字列を正認識の文字列に修正した文字列と、の両方から検索文字列を検索した。すなわち、OCR修正候補保持データである、OCRデータと、OCRデータに含まれる誤認識の文字列を正認識の文字列に修正した、複数の元文字列候補との両方から検索を行った。精度検証#3については、図11を参照しながら説明する。
 精度検証#4では、確信度が低い識字結果や修正識字結果を、検索の対象から除外する。精度検証#4については、図12を参照しながら説明する。
 精度検証#1~#4において、「Precision」、「Recall」、「F1値」をそれぞれ算出した。
 「Precision(適合率、精度ともいう)」は、検索でヒットした正解文字列の数を、検索でヒットした文字列の総数で除して算出される値であり、検索の正確性を表す指標とみなすことができる。「Precision」が高いほど、検索ノイズが少ない。なお、Precision=TP/(TP+FP)より算出される(TP:True Positive,FP:False Positive)。
 「Recall(再現率、感度ともいう)」は、検索でヒットした正解文字列の数を、全ての正解文字列の数で除して算出される値であり、検索の網羅性を表す指標とみなすことができる。「Recall」が高いほど、正解文字列をより多く獲得している。なお、Recall=TP/(TP+FN)により算出される(TP:True Positive,FN:False Negative)。
 「F1値」は、「Precision」と「Recall」の調和平均により算出される値であり、検索の正確性と網羅性のバランスを表す指標とみなすことができる。なお、F1値=2Recall・Precision/(Recall+Precision)により算出される。
 図10は、本発明の一実施形態に係る精度検証(精度検証#2)について説明するための図である。精度検証#2では、図10中の左上に示す「正解データ」(つまり、元文書のデータ)と、図10中の右上に示す「OCRデータ」(つまり、OCR文書のデータ)と、を照合した。具体的に精度の検証の手順について説明する。各単語(例えば、「塩化ナトリウム」、「岩塩」等)が、正解データの1行目に存在かつOCRデータの1行目にも存在するとTPとしてカウントし、正解データの1行目に存在かつOCRデータの1行目に非存在であるとFNとしてカウントし、正解データの1行目に非存在かつOCR文書の1行目に存在するとFPとしてカウントした。同様に2行目、・・・、N行目と繰り返した。そして、「Precision」、「Recall」、「F1値」を算出した。このように、精度検証#2では、OCR処理した識字結果において、どれくらい検索精度が劣るのかが分かる。
 図11は、本発明の一実施形態に係る精度検証(精度検証#3)について説明するための図である。精度検証#3では、正解データ(つまり、元文書のデータ)と、図11中の上に示す「誤認識修正済OCRデータ(複数候補保持)」と、を照合した。具体的に、誤認識修正済OCRデータ(複数候補保持)の作成方法を説明する。OCRデータ(つまり、OCR文書のデータ)の行ごとに、誤認識テーブルをもとに修正候補を生成する(図11の例では、"含塩"を"岩塩"へ修正、"塩"を"「"へ修正等)。その後、OCRデータと、生成された修正候補と、を区切り文字(図11の例では、"@@@")を挟んで1行に連結する。なお、精度の検証の手順については、精度検証#2と同様であるので説明を省略する。
 図12は、本発明の一実施形態に係る精度検証(精度検証#4)について説明するための図である。精度検証#4では、正解データ(つまり、元文書のデータ)と、図12中の上に示す「誤認識修正済OCRデータ(複数候補保持、確信度保持)」と、を照合した。具体的に、誤認識修正済OCRデータ(複数候補保持、確信度保持)の作成方法を説明する。精度検証#3と同様に、OCRデータ(つまり、OCR文書のデータ)の行ごとに、誤認識テーブルをもとに修正候補を生成する(図12の例では、"含塩"を"岩塩"へ修正、"塩"を"「"へ修正等)。そして、OCRデータと、生成された修正候補と、に確信度を付与する。その後、OCRデータと、生成された修正候補と、を区切り文字(図12の例では、"@@@")を挟んで1行に連結する。なお、精度の検証の手順については、精度検証#2と同様であるので説明を省略する(精度検証#4では、確信度が低いものは、検索の対象から除外される(×))。
 図13は、本発明の一実施形態に係る精度検証を比較するための図である。図13は、上記の精度検証#1(図9の「#1 元文書」)、精度検証#2(図10の「#2 OCRデータ」)、精度検証#3(図11の「#3 誤認識修正済OCRデータ(複数候補保持)」)、精度検証#4(図12の「#4 誤認識修正済OCRデータ(複数候補保持、確信度保持)」)の「Precision」、「Recall」、「F1値」を示す。なお、誤認識テーブルに記憶されているデータ(本例の項目「塩」においては、約900の正誤ペア)のうち、「誤認識」が1字であるものを除いた800ペアを使用した(×)。また、確信度は、図8のような形態素解析を用いた手法によって算出されている。
 図13に示されるように、第1の実施形態や第2の実施形態である「#3 誤認識修正済OCRデータ(複数候補保持)」のF1値は、「#2 OCR文書」のF1値よりも高くなった。また、第3の実施形態である「#4 誤認識修正済OCRデータ(複数候補保持、確信度保持)」のF1値は、「#3 誤認識修正済OCRデータ(複数候補保持)」のF1値よりも高くなった。
 <処理方法>
 図14は、本発明の一実施形態に係る文書の検索の処理の流れを示すフローチャートである。
 ステップ11(S11)において、OCR処理部101は、文字列情報を抽出する。具体的には、OCR処理部101は、文書画像(例えば、手書きの文書の画像)を取得する。次に、OCR処理部101は、OCR(光学文字認識)の処理を行い、取得された文書画像から文字列情報を抽出する。なお、文書作成ソフトウェアを用いて作成された文書の場合、文書内の文字列情報が用いられる。
 ステップ12(S12)において、元文字列候補生成部102は、誤認識テーブル202をもとに、元の文字列の候補を生成する。具体的には、元文字列候補生成部102は、誤認識テーブル202の「正認識」および「誤認識」の文字列を参照して、S11の文字列情報に含まれる「誤認識」の文字列を「正認識」の文字列に修正し、元の文字列の候補を生成する。
 ステップ13(S13)において、文書検索部103は、S11の文字列情報およびS12において生成された、元の文字列の候補を走査する。具体的には、文書検索部103は、S11の文字列情報およびS12の元の文字列の候補から、ユーザ端末20から取得された検索文字列を検索する。
 ステップ14(S14)において、文書検索部103が有する検索結果表示部105は、検索の結果(例えば、検索文字列を含む文書の文書ID、検索文字列を含む文書に対応する手書きの文書の画像等)をユーザ端末20に出力する。
<効果>
 このように、本発明では、文書と、文書内の誤認識の文字列を正認識の文字列に修正した文字列と、の両方を検索する。そのため、文字を置き換えなければ抽出できたはずの文字列を抽出することができなくなってしまうことを避けることができる。また、誤認識の文字列および正認識の文字列を形態素にすることによって、検索ノイズを低減することができる。また、確信度が低いものを除外したり優先順位を下げたりすることによって、検索ノイズを低減することができる。
<ハードウェア構成>
 図15は、本発明の一実施形態に係る文書検索装置10、ユーザ端末20のハードウェア構成図である。文書検索装置10、ユーザ端末20は、CPU(Central Processing Unit)1001、ROM(Read Only Memory)1002、RAM(Random Access Memory)1003を有する。CPU1001、ROM1002、RAM1003は、いわゆるコンピュータを形成する。
 また、文書検索装置10、ユーザ端末20は、補助記憶装置1004、表示装置1005、操作装置1006、I/F(Interface)装置1007、ドライブ装置1008を有することができる。
 なお、文書検索装置10、ユーザ端末20の各ハードウェアは、バスBを介して相互に接続されている。
 CPU1001は、補助記憶装置1004にインストールされている各種プログラムを実行する演算デバイスである。
 ROM1002は、不揮発性メモリである。ROM1002は、補助記憶装置1004にインストールされている各種プログラムをCPU1001が実行するために必要な各種プログラム、データ等を格納する主記憶デバイスとして機能する。具体的には、ROM1002は、BIOS(Basic Input/Output System)やEFI(Extensible Firmware Interface)等のブートプログラム等を格納する、主記憶デバイスとして機能する。
 RAM1003は、DRAM(Dynamic Random Access Memory)やSRAM(Static Random Access Memory)等の揮発性メモリである。RAM1003は、補助記憶装置1004にインストールされている各種プログラムがCPU1001によって実行される際に展開される作業領域を提供する、主記憶デバイスとして機能する。
 補助記憶装置1004は、各種プログラムや、各種プログラムが実行される際に用いられる情報を格納する補助記憶デバイスである。
 表示装置1005は、文書検索装置10、ユーザ端末20の内部状態等を表示する表示デバイスである。
 操作装置1006は、文書検索装置10、ユーザ端末20を操作する者が文書検索装置10、ユーザ端末20に対して各種指示を入力する入力デバイスである。
 I/F装置1007は、ネットワークに接続し、他の装置と通信を行うための通信デバイスである。
 ドライブ装置1008は記録媒体1009をセットするためのデバイスである。ここでいう記録媒体1009には、CD-ROM、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記録媒体1009には、EPROM (Erasable Programmable Read Only Memory)、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。
 なお、補助記憶装置1004にインストールされる各種プログラムは、例えば、配布された記録媒体1009がドライブ装置1008にセットされ、該記録媒体1009に記録された各種プログラムがドライブ装置1008により読み出されることでインストールされる。あるいは、補助記憶装置1004にインストールされる各種プログラムは、I/F装置1007を介して、ネットワークよりダウンロードされることでインストールされてもよい。
 以上、本発明の実施例について詳述したが、本発明は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
1 文書検索システム
10 文書検索装置
20 ユーザ端末
101 OCR処理部
102 元文字列候補生成部
103 文書検索部
104 記憶部
105 検索結果表示部
201 文書情報テーブル
202 誤認識テーブル
1001 CPU
1002 ROM
1003 RAM
1004 補助記憶装置
1005 表示装置
1006 操作装置
1007 I/F装置
1008 ドライブ装置
1009 記録媒体

Claims (10)

  1.  正認識の文字列と誤認識の文字列とが記憶された誤認識テーブルと、
     検索文字列を取得し、
     文書と、前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正した文字列と、の両方から前記検索文字列を検索する、文書検索部と
     を有する、文書検索装置。
  2.  前記正認識の文字列および前記誤認識の文字列は、それぞれ1つの文字からなる文字列である、請求項1に記載の文書検索装置。
  3.  前記正認識の文字列および前記誤認識の文字列は、それぞれ複数の文字からなる形態素である、請求項1に記載の文書検索装置。
  4.  複数の、正認識の文字列および誤認識の文字列の対を含む誤変換テーブルは、前記正認識の文字列および前記誤認識の文字列が、それぞれ1つの文字からなる文字列である場合と、それぞれ複数の文字からなる形態素である場合と、の両方を含む、請求項1に記載の文書検索装置。
  5.  前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正した文字列の確信度、および、前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正する前の文字列の確信度が記憶された文書情報テーブルをさらに有し、
     前記文書検索部は、前記確信度が低い文字列を検索の対象から除外する、請求項1から4のいずれか一項に記載の文書検索装置。
  6.  前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正した文字列の確信度、および、前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正する前の文字列の確信度が記憶された文書情報テーブルをさらに有し、
     前記文書検索部は、前記確信度が低い文字列の優先順位を下げる、請求項1から4のいずれか一項に記載の文書検索装置。
  7.  前記文書検索部が、検索結果表示部を有し、
     前記検索結果表示部は、前記検索結果を表示する、請求項1から6のいずれか一項に記載の文書検索装置。
  8.  文書検索装置とユーザ端末とを含む文書検索システムであって、
     前記文書検索装置は、
     正認識の文字列と誤認識の文字列とが記憶された誤認識テーブルと、
     検索文字列を取得し、
     文書と、前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正した文字列と、の両方から前記検索文字列を検索する、文書検索部と、を有する、文書検索システム。
  9.  正認識の文字列と誤認識の文字列とが記憶された誤認識テーブルを有するコンピュータを、
     検索文字列を取得し、
     文書と、前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正した文字列と、の両方から前記検索文字列を検索する、文書検索部、として機能させるための文書検索プログラム。
  10.  正認識の文字列と誤認識の文字列とが記憶された誤認識テーブルを有する文書検索装置が実行する方法であって、
     検索文字列を取得するステップと、
     文書と、前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正した文字列と、の両方から前記検索文字列を検索するステップと
     を含む文書検索方法。
PCT/JP2021/032807 2020-09-16 2021-09-07 文書検索装置 WO2022059556A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US18/245,061 US20230359653A1 (en) 2020-09-16 2021-09-07 Document retrieval device
CN202180061725.XA CN116075817A (zh) 2020-09-16 2021-09-07 文档检索装置
JP2022550489A JPWO2022059556A1 (ja) 2020-09-16 2021-09-07

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-155507 2020-09-16
JP2020155507 2020-09-16

Publications (1)

Publication Number Publication Date
WO2022059556A1 true WO2022059556A1 (ja) 2022-03-24

Family

ID=80776014

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/032807 WO2022059556A1 (ja) 2020-09-16 2021-09-07 文書検索装置

Country Status (4)

Country Link
US (1) US20230359653A1 (ja)
JP (1) JPWO2022059556A1 (ja)
CN (1) CN116075817A (ja)
WO (1) WO2022059556A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07152774A (ja) * 1993-11-30 1995-06-16 Hitachi Ltd 文書検索方法および装置
JP2007048272A (ja) * 2005-07-14 2007-02-22 Seiko Epson Corp 文字列検索装置およびプログラム
JP2020047031A (ja) * 2018-09-20 2020-03-26 富士ゼロックス株式会社 文書検索装置、文書検索システム及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07152774A (ja) * 1993-11-30 1995-06-16 Hitachi Ltd 文書検索方法および装置
JP2007048272A (ja) * 2005-07-14 2007-02-22 Seiko Epson Corp 文字列検索装置およびプログラム
JP2020047031A (ja) * 2018-09-20 2020-03-26 富士ゼロックス株式会社 文書検索装置、文書検索システム及びプログラム

Also Published As

Publication number Publication date
US20230359653A1 (en) 2023-11-09
CN116075817A (zh) 2023-05-05
CN116075817A8 (zh) 2023-07-21
JPWO2022059556A1 (ja) 2022-03-24

Similar Documents

Publication Publication Date Title
Islam et al. Real-word spelling correction using Google Web 1T 3-grams
CA2614416C (en) Processing collocation mistakes in documents
US6424983B1 (en) Spelling and grammar checking system
US20050216253A1 (en) System and method for reverse transliteration using statistical alignment
US20080033714A1 (en) Acronym Extraction System and Method of Identifying Acronyms and Extracting Corresponding Expansions from Text
CN109460552B (zh) 基于规则和语料库的汉语语病自动检测方法及设备
CN110569335B (zh) 基于人工智能的三元组校验方法、装置及存储介质
Wemhoener et al. Creating an improved version using noisy OCR from multiple editions
US8725497B2 (en) System and method for detecting and correcting mismatched Chinese character
WO2014087703A1 (ja) 単語分割装置、単語分割方法、及び単語分割プログラム
Ganfure et al. Design and implementation of morphology based spell checker
Mudge The design of a proofreading software service
Bhatti et al. Phonetic-based sindhi spellchecker system using a hybrid model
Kaur et al. Spell Checking and Error Correcting System for text paragraphs written in Punjabi Language using Hybrid approach
WO2022059556A1 (ja) 文書検索装置
JP6916437B2 (ja) 情報処理装置、その制御方法、及びプログラム
US10409861B2 (en) Method for fast retrieval of phonetically similar words and search engine system therefor
US20230177266A1 (en) Sentence extracting device and sentence extracting method
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
CN115270768A (zh) 用于文本中待纠错的目标重点词确定的方法与设备
Luong et al. Word graph-based multi-sentence compression: Re-ranking candidates using frequent words
CN114220113A (zh) 一种论文质量检测方法、装置和设备
JP3111860B2 (ja) スペルチェック装置
Syarafina et al. Designing a word recommendation application using the Levenshtein Distance algorithm
US20240062004A1 (en) Fuzzy matching of obscure texts with meaningful terms included in a glossary

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21869243

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022550489

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21869243

Country of ref document: EP

Kind code of ref document: A1