WO2020166569A1 - 文書検索装置、文書検索システム、文書検索プログラム及び文書検索方法 - Google Patents

文書検索装置、文書検索システム、文書検索プログラム及び文書検索方法 Download PDF

Info

Publication number
WO2020166569A1
WO2020166569A1 PCT/JP2020/005167 JP2020005167W WO2020166569A1 WO 2020166569 A1 WO2020166569 A1 WO 2020166569A1 JP 2020005167 W JP2020005167 W JP 2020005167W WO 2020166569 A1 WO2020166569 A1 WO 2020166569A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
keyword
search
input
unit
Prior art date
Application number
PCT/JP2020/005167
Other languages
English (en)
French (fr)
Inventor
南 拓也
悠 川原
真平 竹本
領子 武田
好成 奥野
Original Assignee
昭和電工株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 昭和電工株式会社 filed Critical 昭和電工株式会社
Priority to CN202080013528.6A priority Critical patent/CN113474767B/zh
Priority to US17/310,439 priority patent/US11797551B2/en
Priority to JP2020572250A priority patent/JP6963126B2/ja
Publication of WO2020166569A1 publication Critical patent/WO2020166569A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • G06V30/347Sampling; Contour coding; Stroke extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Definitions

  • the present invention relates to a document search device, a document search system, a document search program, and a document search method.
  • character information included in paper documents is converted into image data as electronic data by an optical reading device, etc., and the image data is subjected to optical character recognition (OCR) processing to obtain image data.
  • OCR optical character recognition
  • An electronic file is made by extracting the character information included in the character data as character data.
  • Patent Document 1 discloses a technique of combining voice information to increase the recognition rate of handwritten characters.
  • Patent Document 2 discloses a technique for increasing the character recognition rate by accurately performing character cutting when performing character recognition of handwritten character data input in continuous characters.
  • the present invention has been made to solve this in view of the above circumstances, and an object thereof is to improve the hit rate of keyword search.
  • An input receiving unit that receives a keyword input, From the digital document database that stores the document file in which text image data of a handwritten document is subjected to character recognition processing into text data, and the name of the writer who entered the characters in the handwritten document, the writer name and the document
  • a document acquisition unit that acquires a file and A writer name, a keyword, and a corresponding keyword database that stores information in which the corresponding keywords are associated with each other are referenced, and the keywords input from the input receiving unit and the writer name acquired by the document acquisition unit From the corresponding keyword acquisition unit for acquiring the corresponding keyword of the input keyword,
  • a document search unit that searches the document file acquired by the document acquisition unit using the input keyword and the acquired corresponding keyword; And a search result output unit that outputs a search result by the document search unit.
  • the search result output unit From the document file, output text data containing the input keyword or the corresponding keyword as a search result,
  • the document image output unit is The document search device according to [1], wherein when a part of the text data is selected, the document image data corresponding to the document file including the part of the selected text data is acquired and output.
  • the document search unit is A fuzzy search is performed using each of the input keyword and the corresponding keyword, The search result output unit, The document search device according to [1] or [2], wherein the result of the fuzzy search is included in the search result.
  • Information stored in the corresponding keyword database includes the corresponding keyword or a keyword used as a search keyword in a fuzzy search, the writer name acquired by the document acquisition unit, and the keyword input by the input reception unit. , And the number of selections, and In the search result, when a part of the text data output as a result of the search or fuzzy search by the corresponding keyword is selected,
  • the document search device according to [2] or [3], further including a corresponding keyword update unit that updates the selection count and stores the selected keyword database.
  • a prediction model learning unit that learns the prediction model, and a model storage unit that stores the prediction model are further included.
  • the prediction model learning unit causes the prediction model to learn the information stored in the corresponding keyword database as learning data, and the model storage unit stores the learned learned prediction model.
  • the learned prediction model predicts a corresponding keyword when the input keyword and the acquired writer name are input, and outputs the predicted keyword,
  • the document according to any one of [1] to [4], wherein the document search unit searches the document file acquired by the document acquisition unit with the input keyword and the predicted corresponding keyword. Search device.
  • a prediction model learning unit for learning the prediction model and a model storage unit storing the prediction model are provided, The prediction model learning unit causes the prediction model to learn the updated association information stored by the corresponding keyword update unit as learning data, and the model storage unit stores the learned learned prediction model.
  • the learned prediction model predicts a corresponding keyword when the input keyword and the acquired writer name are input, and outputs the predicted keyword,
  • the document search device according to [4], wherein the document search unit searches the document file acquired by the document acquisition unit with the input keyword and the predicted corresponding keyword. [7] When the text data is selected from the search result, the prediction model learning unit associates the keyword generated from the input keyword, the writer name, and the input keyword included in the selected text data.
  • the prediction model learning unit causes the prediction model to learn the association information group including the association information as learning data
  • the model storage unit stores a learned learned prediction model
  • the learned prediction model when the input keyword and the acquired writer name is input, predicts a corresponding keyword, and outputs the predicted corresponding keyword
  • the document search device according to [6], wherein the document search unit searches the document file acquired by the document acquisition unit with the input keyword and the predicted corresponding keyword.
  • the corresponding keyword is The document search device according to any one of [1] to [7], which is a character string including a character that is erroneously recognized as a result of performing the character recognition process on a keyword associated with the corresponding keyword.
  • a document search system having a document search device and a terminal device, The document retrieval device, An input reception unit that receives input of keywords, From the digital document database that stores the document file in which the text image data of the handwritten document is subjected to the character recognition process and the text file and the name of the writer who entered the characters of the handwritten document are stored, the writer name and the document
  • a document acquisition unit that acquires a file and A writer name, a keyword, and a corresponding keyword database that stores information in which the corresponding keywords are associated with each other are referenced, and the keywords input from the input receiving unit and the writer name acquired by the document acquisition unit From the corresponding keyword acquisition unit for acquiring the corresponding keyword of the input keyword,
  • a document search unit that searches the document file acquired by the document acquisition unit using the input keyword and the acquired corresponding keyword;
  • a search result output unit that outputs a search result by the document search unit to the terminal device.
  • a process of receiving a keyword input From the digital document database that stores the document file in which the text image data of the handwritten document is subjected to the character recognition process and the text file and the name of the writer who entered the characters of the handwritten document are stored, the writer name and the document
  • the process of getting the file and Corresponding keyword of the input keyword from the input keyword and the acquired writer name by referring to the corresponding keyword database that stores information in which the writer name, the keyword, and the corresponding keyword are associated with each other.
  • the process of getting A process of searching the acquired document file with the input keyword and the acquired corresponding keyword;
  • a document search program that causes a computer to execute a process of outputting a search result.
  • a document search method using a computer wherein the computer The procedure to accept the input of keywords, From the digital document database that stores the document file in which the text image data of the handwritten document is subjected to the character recognition process and the text file and the name of the writer who entered the characters of the handwritten document are stored, the writer name and the document The steps to get the file and Corresponding keyword of the input keyword from the input keyword and the acquired writer name by referring to the corresponding keyword database that stores information in which the writer name, the keyword, and the corresponding keyword are associated with each other. And the steps to get A step of searching the acquired document file with the input keyword and the acquired corresponding keyword; A procedure for outputting a search result, and a document search method including:
  • FIG. 3 is a flowchart illustrating an operation of the document search device according to the first exemplary embodiment. It is a 1st figure explaining the example of a display of the list of the search result of 1st embodiment.
  • FIG. 8 is a second diagram illustrating a display example of a list of search results according to the first embodiment. It is a figure explaining the function of the document search device of a second embodiment. It is a figure which shows an example of the corresponding keyword database of 2nd embodiment.
  • 9 is a flowchart illustrating an operation of the document search device according to the second exemplary embodiment. It is a figure explaining the function of the document search device of a third embodiment. It is a flow chart explaining operation of the document search device of a third embodiment. It is a figure explaining the function of the document search device of a 4th embodiment. It is a flow chart explaining operation of the document search device of a fourth embodiment. It is a figure explaining the function of the document search device of a 5th embodiment. It is a flow chart explaining processing of a prediction model learning part of a fifth embodiment.
  • FIG. 1 is a diagram showing an example of the system configuration of the document search system of the first embodiment.
  • the document search system 100 of this embodiment includes a document search device 200.
  • the document search system 100 may further include a terminal device 300, and the document search device 200 and the terminal device 300 may be connected via a network.
  • the terminal device 300 has an input device such as a keyboard and an output device such as a liquid crystal display, in addition to a communication interface device and the like.
  • the document search device 200 of this embodiment includes a digital document database 210, a corresponding keyword database 220, a document image database 230, and a search processing unit 240.
  • the digital document database 210 is a digital document file (hereinafter also referred to as a document file) that includes character information obtained by performing OCR (Optical Character Recognition: OCR) processing on the image data of the paper document stored in the document image database 230. Will be stored.
  • OCR Optical Character Recognition
  • the digital document file is associated with the document name of the paper document and the name of the writer who wrote the characters on the paper document (hereinafter also referred to as the writer name).
  • Corresponding keyword database 220 includes the name of the writer who wrote the characters on the paper document that is the source of the image stored in document image database 230, and the characters erroneously recognized from the character string entered by the writer.
  • a character string (which will be treated as a corresponding keyword as described later) and a correct character string (correct character string) (as will be described later, which will be referred to in comparison with the input keyword) are associated with each other.
  • Correspondence information is stored.
  • the work of creating the corresponding keyword database 220 by storing the correspondence information in which the writer name, the character string including the erroneously recognized characters, and the correct character string are associated with each other in the corresponding keyword database 220 is manually performed in advance. May be done by.
  • the letters and the like include numbers and symbols.
  • the document image database 230 stores image data of a paper document read by an optical reading device or the like.
  • the paper document is, for example, a paper document created by handwriting.
  • Handwritten paper documents include technical documents related to specific technical fields, and include handwritten character information such as record notes and reports created by handwriting on paper media, design drawings and photographs that include handwritten character information, etc.
  • the measurement recording paper etc. which were carried out are included.
  • the paper document is, for example, a paper document in which printed characters are printed.
  • Examples of the paper document for type printing include technical documents of a specific technical field, and include a report in which the type is printed on a paper medium, a design drawing, and the like.
  • As the target paper document a handwritten paper document and a printable paper document may be mixed.
  • the "paper medium” includes not only paper but also plastic films, cloths, plates, leather, walls and the like.
  • the digital document database 210, the corresponding keyword database 220, and the document image database 230 of this embodiment are created in advance and provided in the document search device 200.
  • the search processing unit 240 of the present embodiment Upon receiving a keyword input from the terminal device 300, the input device 24 described later, or the like, the search processing unit 240 of the present embodiment refers to the digital document database 210 and refers to the name of the person who entered the handwritten document with characters or the like. And the document file. Then, the search processing unit 240 refers to the corresponding keyword database 220, and acquires the input keyword and the corresponding keyword associated with the writer name based on the writer name corresponding to the document file. In the following description, the input keyword is called an input keyword.
  • the search processing unit 240 searches for a document file included in the digital document database 210 using the acquired corresponding keyword and the input keyword, and outputs the search result to the terminal device 300.
  • the search processing unit 240 performs this process for all the document files stored in the digital document database 210.
  • the search processing unit 240 performs a search for the digital document database 210 using the input keyword, and a character string that should be referred to as the input keyword and that includes a character that is a result of erroneous recognition.
  • the digital document database 210 is also searched by a certain corresponding keyword.
  • FIG. 2 is a diagram illustrating the search process of the first embodiment.
  • the shape of a handwritten character on a paper document differs depending on the handwriting of the person who wrote it. Specifically, for example, depending on the writer, the distance between the deviation and the distance is large, or the old font, the abbreviation, the collapsed character, or the like is used. In addition, typographical errors may be entered due to the belief of the person who entered the text.
  • the bias and the stroke may be erroneously recognized as separate characters.
  • old fonts, abbreviations, collapsing characters, etc. may be erroneously recognized as characters that are different from the original intention.
  • FIG. The table which matched the digital character string which is the result of performing character recognition by performing OCR processing, the correct character string which a handwritten character string intended, and the handwriting type of a handwritten character is shown.
  • the correct answer character string and the digital character string are associated with each other and stored in the corresponding keyword database 220 in advance.
  • the writer x and the correct answer character string “flying” were erroneously recognized.
  • the resulting keyword is stored in the corresponding keyword database 220 as the correspondence information in which the digital character string “LE” is associated.
  • the corresponding keyword database 220 also stores the association information in which the writer x, the correct answer character string “problem”, and the digital character string “subject” that is the result of misrecognition are associated with each other. It
  • the search processing unit 240 searches the document file with the input keyword “flying” and a digital character string corresponding to “flying”. Search with the keyword "re-line”.
  • a character string including a character that is a result of erroneously recognizing a handwritten character and a correct answer character string (input keyword) that is a word originally meant by the handwritten character
  • input keyword a correct answer character string
  • a word that matches an input keyword is erroneously recognized during OCR processing, or is recognized correctly. Even if the original character is a typographical error in the first place, the search by the corresponding keyword increases the possibility that the document desired by the user who inputs the input keyword is extracted.
  • the digital document database 210, the corresponding keyword database 220, and the document image database 230 are provided in the document search device 200, but the invention is not limited to this.
  • Each of the digital document database 210, the corresponding keyword database 220, and the document image database 230 may be provided in an external device that can communicate with the document search device 200. Further, part of the digital document database 210, the corresponding keyword database 220, and the document image database 230 may be provided in the document search device 200.
  • FIG. 3 is a diagram illustrating a hardware configuration of the document search device according to the first embodiment.
  • the document search device 200 of this embodiment is a device that handles document information including an image input device and a computer.
  • the document search device 200 of this embodiment has a CPU (Central Processing Unit) 21, a main storage device 22, an auxiliary storage device 23, an input device 24, an output device 25, a communication interface device 26, and a drive device 27. , Each of which is an information processing device connected by a bus.
  • CPU Central Processing Unit
  • the CPU 21 is a main control unit that controls the operation of the document search device 200. By reading and executing the document search program stored in the main storage device 22, various functions described later are realized.
  • the main storage device 22 reads and stores the document search program from the auxiliary storage device 23 when the document search device 200 is activated.
  • the auxiliary storage device 23 stores the installed document search program, and also stores necessary files, data, etc. of the above-mentioned databases and the like.
  • the input device 24 is a device for inputting various kinds of information, and is realized by, for example, a keyboard or a pointing device.
  • the output device 25 is for outputting various kinds of information, and is realized by, for example, a display.
  • the communication interface device 26 includes a LAN card and the like, and is used for connecting to a network.
  • the document search program that realizes the search processing unit 240 of this embodiment is at least a part of various programs that control the document search apparatus 200.
  • the document search program may be provided by, for example, distributing the recording medium 28 or downloading from a network.
  • the recording medium 28 in which the document search program is recorded is a recording medium such as a CD-ROM, a flexible disk or a magneto-optical disk for recording information optically, electrically or magnetically, or information such as a ROM or a flash memory. It is possible to use various types of recording media such as a semiconductor memory that electrically records data.
  • the document search program is installed in the auxiliary storage device 23 from the recording medium 28 via the drive device 27.
  • the document search program downloaded from the network is installed in the auxiliary storage device 23 via the communication interface device 26.
  • Each database of this embodiment will be described with reference to FIGS. 4 to 6.
  • Each database of this embodiment may be provided in a storage area such as the auxiliary storage device 23, for example.
  • FIG. 4 is a diagram showing an example of the digital document database of the first embodiment.
  • a document ID, a document name, a writer name, and a document file are associated with each other as information items.
  • the information including the value of each item is digital document information.
  • the value of the item “document ID” is identification information for identifying a paper document stored as image data in the document image database 230. Note that the value of the item “document ID” may be configured by the date information when the image data of the handwritten document was created, or the branch number added to the date information.
  • the value of the item “document name” is the name of a paper document stored as image data in the document image database 230.
  • the value of the item "Entry name” indicates the name of the entry person who wrote the handwritten character on the paper document specified by the document name.
  • the value of the item “entrant name” is information that identifies the entrant who wrote the handwritten character on the paper document.
  • the value of the item “document file” is the document file itself obtained by performing OCR processing on the image data of the paper document specified by the document name.
  • the document file of this embodiment is text data.
  • a paper document with the document name “June 1960_monthly report” is filled in by a person with the writer name “i” and made into text data “June 1960_monthly report text”. I understand.
  • FIG. 5 is a diagram showing an example of the corresponding keyword database of the first embodiment.
  • the corresponding keyword database 220 of this embodiment has a writer name, a keyword, and a corresponding keyword as information items.
  • the information including the value of each item is the association information.
  • the value of the item “keyword” indicates the keyword intended by the writer identified by the writer's name. In other words, the value of the item “keyword” is the correct character string shown in FIG.
  • the value of the item “corresponding keyword” is a character string that includes the character that is the result of erroneously recognizing the character handwritten by the writer.
  • the value of the item “corresponding keyword” is the digital character string shown in FIG.
  • the writer name “i”, the corresponding keyword “hydroxylation”, and the corresponding corresponding keyword “Rikishihi” are associated. This indicates that the handwritten character string “hydroxylated” filled in by the writer's name “i” was erroneously recognized as “Hikishiki” as a result of the OCR process.
  • FIG. 6 is a diagram showing an example of the document image database of the first embodiment.
  • the document image database 230 of this embodiment has a document ID, a document name, and document image data as information items.
  • the value of the item “document image data” is image data obtained by reading a paper document with an optical reading device.
  • the document image data of this embodiment may be stored as, for example, a pdf file, or may be stored as image data.
  • document image information information including the value of the item “document ID” and the values of other items is referred to as document image information.
  • the document image database 230 may include items other than the items shown in FIG. Specifically, for example, the date when the document image information was stored in the document image database 230, the name of the person in charge who performed the process of storing the document image information, and the like are included as the items of the document image database 230. May be.
  • FIG. 7 is a diagram illustrating functions of the document search device according to the first embodiment.
  • the document search device 200 of this embodiment includes a digital document database 210, a corresponding keyword database 220, a document image database 230, and a search processing unit 240.
  • the search processing unit 240 of this embodiment includes an input receiving unit 241, a document acquisition unit 242, a corresponding keyword acquisition unit 244, a document search unit 245, a search result output unit 246, a selection reception unit 247, and a document image output unit 248.
  • the input receiving unit 241 receives various inputs to the document search device 200. Specifically, the input receiving unit 241 receives the input of the search request by the input keyword.
  • the document acquisition unit 242 acquires the document file stored in the digital document database 210 and the name of the person who entered the handwritten document.
  • the corresponding keyword acquiring unit 244 refers to the corresponding keyword database 220, and acquires the corresponding keyword associated with the writer name and the input keyword acquired by the document acquiring unit 242.
  • the document search unit 245 performs a search by the input keyword and a search by the corresponding keyword with respect to the document file acquired by the document acquisition unit 242.
  • the document search unit 245 may also perform a fuzzy search for a document file using the input keyword and the corresponding keyword.
  • the document search unit 245 generates a search keyword in which a part of the character string is replaced with an arbitrary character string for each of the input keyword and the corresponding keyword, and the generated keyword is used to generate the document file. You may search for.
  • the search result output unit 246 outputs the search result by the document search unit 245. Specifically, the search result output unit 246 uses, as a search result, a part of the text data of the document file that includes the input keyword used in the search or the corresponding keyword, for example, a part of the text data including the keyword, as a list. It is displayed on the device 300 or the like.
  • the selection receiving unit 247 receives selection of a specific search result from the list of output search results. Specifically, the selection receiving unit 247 receives selection of a part of the document file displayed as the search result.
  • the document image output unit 248 refers to the document image database 230, acquires the document image data corresponding to the search result selected by the selection receiving unit 247, and outputs the document image data. Specifically, the document image output unit 248 acquires the document image data corresponding to the search result and, for example, causes the terminal device 300 to display a part of the document image including the keyword.
  • FIG. 8 is a flowchart illustrating the operation of the document search device according to the first embodiment.
  • the search processing unit 240 of the document search apparatus 200 receives the input of the input keyword by the input receiving unit 241 (step S801).
  • the search processing unit 240 acquires, by the document acquisition unit 242, one document file from the document files stored in the digital document database 210 and the writer name corresponding to this document file (step). S802).
  • the corresponding keyword acquisition unit 244 refers to the corresponding keyword database 220 and acquires the corresponding keyword associated with the input keyword and the writer's name (step S803).
  • the search processing unit 240 searches the document file acquired in step S802 with the input keyword and the corresponding keyword using the document search unit 245 (step S804). At this time, the document ID of the document file obtained as the search result may be held by the document search unit 245.
  • the document search unit 245 of the present embodiment may perform a fuzzy search for each of the input keyword and the corresponding keyword, or either one of them.
  • a fuzzy search means for example, a wildcard search in which a part of a character string is replaced with arbitrary characters.
  • the wildcard search is an example, and the ambiguous search may be performed by a method other than the wildcard search.
  • the document search unit 245 may perform a word similarity search using the Word2Vec technique or deep learning.
  • the document search unit 245 determines whether or not all document files stored in the digital document database 210 have been searched (step S805). If all document files have not been searched in step S805, the search processing unit 240 returns to step S802.
  • the search processing unit 240 causes the search result output unit 246 to determine whether or not there is a document file hit as a search result (step S806).
  • step S806 the search processing unit 240 causes the search result output unit 246 to output a notification indicating that the corresponding document file does not exist to the terminal device 300 (step S807), To finish.
  • step S806 if the corresponding document file exists, the search result output unit 246 acquires the text data including the hit keyword from the document file (step S808).
  • the search result output unit 246 outputs, as a search result, a list of a part of the text data before and after including the hit keyword in the acquired text data to the terminal device 300 (step S809).
  • the search processing unit 240 determines whether or not the selection receiving unit 247 has received the selection for the text data output as the search result (step S810).
  • step S810 when the selection is not accepted, the search processing unit 240 ends the process.
  • the document image output unit 248 acquires the document image data corresponding to the document ID of the document file including the selected text data in the document image database 230, and includes, for example, the keyword. A part of the document image is output to the terminal device 300 (step S811), and the process ends.
  • a user who conducts a search for the text data output as the search result selects at least a part of the text data containing the keyword hit in the search, and a document file containing a part of the selected text data. It is possible to confirm that the hit document file is the desired document file by displaying the document image data corresponding to the document ID of. That is, when the user who performs the search obtains the search result, the selection accepting unit 247 performs a selection procedure of selecting a part of the output text data, and thereby a document corresponding to the hit document file is obtained. Image data can be displayed to confirm that the obtained search results are appropriate.
  • FIG. 9 is a first diagram illustrating a display example of a list of search results according to the first embodiment.
  • the screen 91 shown in FIG. 9 shows an example of a list of search results when “graphite electrode” including “graphite” is input as an input keyword when searching for “graphite electrode”.
  • the “electrode” of the “graphite electrode” is shown as a fixed keyword, and is shown below as a form used in combination with the input keyword and the corresponding keyword.
  • the search processing unit 240 first refers to the digital document database 210 and acquires the document file with the document ID “1” and the writer name “i” corresponding to the document ID “1” (FIG. 4).
  • the search processing unit 240 refers to the corresponding keyword database 220 and acquires the corresponding keyword corresponding to the input keyword “graphite” and the entry name “i”.
  • “rilead” is acquired as the corresponding keyword corresponding to the character string "graphite” and the writer name "i” (see FIG. 5).
  • the search processing unit 240 searches the document file with the document ID “1” for each of the “graphite electrode” including the input keyword and the “ri-lead electrode” including the corresponding keyword.
  • the search processing unit 240 performs this processing on all the document files in the digital document database 210.
  • the search processing unit 240 includes, as a list of the search results, the information 92 indicating the document name “A” and the writer name “i”, and the “graphite electrode including the input keyword in the document file of the document name “A”. And the text data 93 before and after including ".
  • the information 92 is additional information including a document name and a writer name for specifying the document file that is the source of the text data 93.
  • the search processing unit 240 similarly finds the information 94 indicating the document name “E” and the writer name “i”, and the “lead lead electrode” including the corresponding keyword in the document file of the document name “E”.
  • the text data 95 before and after including it are displayed.
  • the document name, the writer name, and the text data before and after the keyword including the hit keyword are displayed as a list for all the search results in this way.
  • the character string including the input keyword and the corresponding keyword may be highlighted in the text data, such as highlighted or underlined. Further, in the present embodiment, the character string including the input keyword in the text data and the character string including the corresponding keyword may be highlighted differently.
  • the search processing unit 240 of the present embodiment acquires the document image data of the document ID “1” corresponding to the text data 93 from the document image database 230. , Display.
  • the document file stored in the digital document database 210 is searched, the search result is displayed, and the document image data corresponding to the text data selected from the search result is displayed on the terminal device 300. To be displayed.
  • this makes it possible to obtain, as a search result, for example, even if the correct character string to be referred to as the input keyword is erroneously recognized in the document file corresponding to the document image data. ..
  • FIG. 10 is a second diagram illustrating a display example of a list of search results according to the first embodiment.
  • the screen 91A shown in FIG. 9 shows an example of a list of search results when “graphite electrode” including “graphite” is input as an input keyword.
  • the information added to the text data is different from the example shown in FIG.
  • the information 92A added to the text data 93 on the screen 91A indicates that the document name of the document file is "A”, the writer name is "i”, and the keyword hit in the search is the input keyword. ing.
  • the information 94A added to the text data 95 indicates that the document name of the document file is "E", the writer name is "i”, and the keyword hit in the search is the corresponding keyword. ..
  • the document name of the document file is “P”
  • the writer name is “k”
  • the keyword hit in the search is the keyword used in the fuzzy search. It is shown that.
  • the types of keywords included in the text data acquired as the search results can be included in the list of search results.
  • the user performing the search does not know that the person who has entered the character is the writer "i", and browses the document image data of the paper document in which the writer "i" has entered the character. Is desired.
  • the document file including the corresponding keyword of the writer "i" may be more likely to correspond to the document image data desired by the user than the document file including the input keyword.
  • the user can browse the desired document image data by selecting the text data 95, for example.
  • the search result may be given a priority order according to the type of the keyword used for the search.
  • the search result may be displayed.
  • the search result includes text data and additional information added to the text data.
  • the priority of the input keyword is the highest
  • the priority of the corresponding keyword is the second highest
  • the priority of the keyword used in the fuzzy search is the lowest. Is also good.
  • the search result including the input keyword is displayed at the top of the list, and the search result including the keyword used for the fuzzy search is displayed at the bottom of the list.
  • the search results can be displayed to the user in order from the document file having the higher character recognition accuracy by giving the priority order to the display of the search results in this way.
  • the second embodiment will be described below with reference to the drawings.
  • the second embodiment is different from the first embodiment in that the corresponding keyword database is updated according to the selection of text data in the search result list. Therefore, in the following description of the second embodiment, the differences from the first embodiment will be described, and those having the same functional configuration as the first embodiment will be described in the first embodiment.
  • the reference numerals used are given and the description thereof is omitted.
  • FIG. 11 is a diagram illustrating the function of the document search device according to the second embodiment.
  • the document search device 200A of this embodiment includes a digital document database 210, a corresponding keyword database 220A, a document image database 230, and a search processing unit 240A.
  • the corresponding keyword database 220A of this embodiment is updated every time the selected text data is selected in the search result list. Details of the corresponding keyword database 220A will be described later.
  • the search processing unit 240A of the present embodiment has a corresponding keyword updating unit 249 in addition to the units of the search processing unit 240 of the first embodiment.
  • the corresponding keyword updating unit 249 updates the corresponding keyword database 220A every time the selection receiving unit 247 receives selection of text data, that is, every time document image data is output. Details of the processing of the corresponding keyword updating unit 249 will be described later.
  • FIG. 12 is a diagram showing an example of the corresponding keyword database of the second embodiment.
  • the corresponding keyword database 220A of the present embodiment has, as information items, the number of selections in addition to the writer name, the keyword, the corresponding keyword.
  • the value of the item “number of selections” indicates the number of times text data containing a combination of the writer name and the input keyword or the corresponding keyword was selected from the list of search results.
  • the value of the item “number of selections” may be referred to when displaying the list of search results.
  • FIG. 13 is a flowchart illustrating the operation of the document search device according to the second embodiment.
  • step S1301 to step S1311 in FIG. 13 Since the processing from step S1301 to step S1311 in FIG. 13 is the same as the processing from step S801 to step S811 in FIG. 8, description thereof will be omitted.
  • step S1312 When the search processing unit 240A acquires the document image data and outputs the document image data to the terminal device 300 in step S1311, the association information corresponding to the additional information added to the selected text data exists in the corresponding keyword database 220A. It is determined whether or not (step S1312).
  • the corresponding keyword update unit 249 updates the selection count of the corresponding association information and stores it in the corresponding keyword database 220A (step S1313). , The process ends. Specifically, the corresponding keyword updating unit 249 increases the number of times the corresponding association information is selected by one and ends the process.
  • step S1312 when the corresponding association information does not exist, the search processing unit 240 generates new association information based on the additional information and adds it to the associated keyword database 220A, and stores it in the associated keyword database 220A. (Step S1314), the process ends.
  • the text data 95 is selected on the screen 91.
  • additional information 94 is added to the text data 95.
  • the text data 95 is hit with the keyword “rilead”, and the additional information 92 includes information indicating the writer name “i”. Therefore, selection of the text data 95 means selection of a combination of the keyword "rilead” and the writer's name "i”.
  • the corresponding keyword updating unit 249 adds 1 to the value of the selection count in the association information 121 of the corresponding keyword database 220A.
  • the text data 97 is selected on the screen 91A shown in FIG.
  • the additional information 96 is added to the text data 97.
  • the text data 97 is hit by the keyword “platinum” generated by the fuzzy search, and the additional information 96 includes information indicating the writer name “k”. Therefore, selection of the text data 97 means selection of a combination of the keyword “platinum” and the writer's name “k”.
  • the corresponding keyword updating unit 249 does not store the corresponding information in which the keyword “platinum” and the writer's name “k” are associated with each other in the corresponding keyword database 220A, the keyword “platinum” is set as a new corresponding keyword, and the entry is performed.
  • Correspondence information in which a person's name “k”, an input keyword “graphite”, and a corresponding keyword “platinum” are associated with each other is generated, and the correspondence information is added to the corresponding keyword database 220A and stored once. To do.
  • the corresponding keyword database 220A is updated every time the text data is selected from the search result. In other words, in the present embodiment, the corresponding keyword database 220A is updated every time the document image data to be browsed is selected.
  • the search results may be displayed in order from the search results hit by the keyword with the highest selection count in the corresponding keyword database 220A.
  • the hit rate of the keyword search can be increased.
  • the document search unit 245 refers to the corresponding keyword database 220A and preferentially displays the search result by the corresponding keyword included in the association information and having a large selection count.
  • the correspondence information 122 including the combination of the corresponding keyword “Hi Kaoshi” and the writer's name “i” is selected 10 times, and the corresponding keyword “Hydroxy acid” and the writer's name “k” are selected.
  • the association information 123 including the combination of “” is selected 12 times.
  • the corresponding keyword updating unit 249 replaces the text data of the hit document file with the corresponding keyword “hi” with the corresponding keyword “hi” with the corresponding keyword “hi” with the corresponding keyword “hi”. Display it higher than the text data of the document file.
  • FIG. 14 is a diagram illustrating the functions of the document search device according to the third embodiment.
  • the document search device 200B of this embodiment includes a digital document database 210, a corresponding keyword database 220, a document image database 230, a search processing unit 240B, and a model storage unit 250.
  • the search processing unit 240B includes an input reception unit 241, a document acquisition unit 242, a corresponding keyword acquisition unit 244, a document search unit 245, a search result output unit 246, a selection reception unit 247, a document image output unit 248, and a prediction model learning unit 251. Have.
  • the prediction model learning unit 251 inputs the association information stored in the corresponding keyword database 220 to the prediction model 260 as learning data, the prediction model 260 learns by machine learning or the like, and the learned prediction model 260A learned is stored in the model memory. It is stored in the unit 250.
  • the model storage unit 250 may store the prediction model 260.
  • the learning prediction model 260A predicts the corresponding keyword and outputs the predicted corresponding keyword. There may be a plurality of predicted corresponding keywords.
  • the corresponding keyword acquisition unit 244 inputs the writer name acquired by the document acquisition unit 242 and the input keyword into the learned prediction model 260A stored in the model storage unit 250, and is predicted by the learned prediction model 260A. The predicted corresponding keyword that is the result is obtained.
  • FIG. 15 is a flowchart illustrating the operation of the document search device according to the third embodiment. Steps S1501 and S1502 in FIG. 15 are the same as steps S801 and S802 in FIG.
  • the search processing unit 240B inputs the writer name and the input keyword to the learned prediction model 260A, and uses the prediction result by the learned prediction model 260A.
  • a certain predicted corresponding keyword is acquired (step S1503).
  • the search processing unit 240B searches the document file acquired by the document acquisition unit 242 with the input keyword and the predicted corresponding keyword by the document search unit 245 (step S1504).
  • step S1504 to step S1511 is the same as the processing from step S804 to step S811 in FIG. 8, description thereof will be omitted.
  • the learned prediction model 260A is constructed using the association information stored in the associated keyword database 220 as learning data.
  • the learned prediction model 260A may predictively output a character string having a shape similar to the input keyword as a corresponding keyword or the like, based on the input keyword and the handwriting of the writer.
  • the fourth embodiment is an embodiment in which the second embodiment and the third embodiment are combined.
  • the description of the second embodiment and the third embodiment will be given to those having a functional configuration similar to the functional configuration required by the second embodiment and the third embodiment.
  • the reference numerals used in step 1 are given and the description thereof is omitted.
  • FIG. 16 is a diagram illustrating the functions of the document search device according to the fourth embodiment.
  • the document search device 200C of this embodiment includes a digital document database 210, a corresponding keyword database 220A, a document image database 230, a search processing unit 240C, and a model storage unit 250.
  • the search processing unit 240C has each unit included in the search processing unit 240B of the third embodiment and a corresponding keyword updating unit 249.
  • FIG. 17 is a flowchart illustrating the operation of the document search device according to the fourth embodiment.
  • step S1701 to step S1711 in FIG. 17 is the same as the processing from step S1501 to step S1511 in FIG. 15, so description thereof will be omitted.
  • step S1712 to step S1714 subsequent to step S1711 is the same as the processing from step S1312 to step S1314 in FIG. 13, description thereof will be omitted.
  • the search processing unit 240C uses the updated corresponding keyword database 220A as learning data by the prediction model learning unit 251, and the learned prediction model 260A further learns to obtain a learned prediction model 260B. It is updated and stored in the prediction model learning unit 251 (step S1715), and the process ends.
  • the learned prediction model in step S1715 does not necessarily have to be updated for each operation of the document search device, but may be updated for each of a plurality of operations according to the user's operation designation.
  • the learned prediction model 260A is updated using the corresponding keyword database 220A updated from the search result selected by the user who performed the search in this way.
  • the learned prediction model is updated based on the association information between the input keyword and the text data selected by the user.
  • the more the search process is performed the more the hit rate by the corresponding keyword can be improved.
  • the fifth embodiment will be described below with reference to the drawings.
  • the fifth embodiment is different from the third embodiment in that it does not have a corresponding keyword database and a prediction model is constructed according to the search result selected by the user who performed the search. Therefore, in the following description of the fifth embodiment, the same reference numerals as those used in the description of the third embodiment are given to those having the same functional configuration as the third embodiment, and the description thereof will be given. Is omitted.
  • FIG. 18 is a diagram illustrating the functions of the document search device according to the fifth embodiment.
  • the document search device 200D of this embodiment includes a digital document database 210, a document image database 230, a search processing unit 240D, and a model storage unit 250.
  • the search processing unit 240D includes an input reception unit 241, a document acquisition unit 242, a corresponding keyword acquisition unit 244, a document search unit 245, a search result output unit 246, a selection reception unit 247, a document image output unit 248, and a prediction model learning unit 252. Have.
  • the prediction model learning unit 252 of the present embodiment includes the keyword hit by the search included in the selected text data and the writer name. And the association information that associates the input keyword with the input keyword.
  • the keywords that are hit in the search process before the learned prediction model 260A is constructed are the input keyword and the keyword generated from the input keyword to perform the fuzzy search.
  • the prediction model learning unit 252 causes the prediction model 260 to learn using the association information group as learning data, and stores the learned learned prediction model 260C as a model memory. It is stored in the unit 250.
  • the prediction model learning unit 252 of the present embodiment may provide the association information group to artificial intelligence or the like to acquire the learned prediction model 260C.
  • the search processing unit 240D acquires the corresponding keyword predicted and output using the learned prediction model 260C.
  • FIG. 19 is a flowchart for explaining the process of the prediction model learning unit in the fifth embodiment.
  • the prediction model learning unit 252 of this embodiment determines whether or not a predetermined number of pieces of association information of the writer name, the input keyword, and the hit keyword have been accumulated (step S1901).
  • the predetermined number may be the minimum number necessary for constructing the prediction model 260 or may be predetermined.
  • the preferred predetermined number of accumulated association information groups is preferably 2 or more, more preferably 5 or more, and further preferably 10 or more.
  • step S1901 when the predetermined number of association information is not accumulated, the prediction model learning unit 252 waits until the predetermined number of association information is accumulated.
  • step S1901 When a predetermined number of association information items are accumulated in step S1901, the prediction model learning unit 252 learns the prediction model 260 using the association information group as learning data and constructs a learned prediction model 260C (step S1902). ), the data is stored in the model storage unit 250 (step S1903), and the process ends.
  • the hit rate of keyword search can be improved as the search process is performed.
  • Each of the above-described embodiments can be applied to a handwritten paper document. Specifically, for example, if the writer's name and the image data of the paper document filled by the writer can be associated with each other, the application can be applied to any paper document.
  • Document Retrieval System 200 200A, 200B, 200C, 200D Document Retrieval Device
  • Digital Document Database 220 220A
  • Corresponding Keyword Database 230
  • Document Image Database 240 240A, 240B, 240C
  • 240D Search Processing Unit 241
  • Input Receiving Unit 242
  • Document Acquisition Unit 244
  • Document search unit 246
  • Search result output unit 247
  • Selection acceptance unit 248
  • Model storage unit 251, 252 Prediction model learning unit 260 Prediction model 260A, 260B, 260C Learned prediction Model 300 terminal device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

キーワードの入力を受け付ける入力受付部と、手書き文書の文書画像データに文字認識処理を施し、テキストデータとした文書ファイルと、手書き文書に文字を記入した記入者名と、が格納されたデジタル文書データベースから、記入者名と文書ファイルとを取得する文書取得部と、記入者名と、キーワードと、対応キーワードとを対応付けた情報が格納された対応キーワードデータベースを参照し、入力受付部から入力されたキーワードと、文書取得部により取得された記入者名とから、入力されたキーワードの対応キーワードを取得する対応キーワード取得部と、文書取得部により取得された文書ファイルを、入力されたキーワード及び取得された対応キーワードにより検索する文書検索部と、文書検索部による検索結果を出力する検索結果出力部と、を有する。

Description

文書検索装置、文書検索システム、文書検索プログラム及び文書検索方法
 本発明は、文書検索装置、文書検索システム、文書検索プログラム及び文書検索方法に関する。
 高度経済成長期を中心とする時代の技術開発において作成された技術文書には、紙媒体に手書きで作成されているものがある。これらの手書きの技術文書は技術とノウハウの宝庫であり、現在直面している技術課題の解決に活用される場面もある。ただ、紙文書の形態では、倉庫保管のため取り寄せに時間がかかることや、紙文書のページを逐次めくって確認する必要があるため目的とする技術情報に到達するのに労力がかかること等の難点があり、蓄積された技術文書を十分に活用できていないという問題がある。
 一方で近年、紙文書等が含む文字情報は、光学的読み取り装置等により電子データとして画像データに変換し、その画像データに対して光学文字認識(Optical Character Recognition:OCR)処理を施し、画像データが含む文字情報を文字データとして抽出することにより、電子ファイル化することが行われている。前述した手書きの技術文書についても電子ファイル化して、迅速に検索、閲覧等の活用を行いたいという要求が高まっている。
 手書きの技術文書に対する文字認識の精度は、現状の技術では十分とはいえず、認識精度向上の研究が盛んに行われている。例えば、特許文献1には、音声情報を組合せて手書き文字の認識率を高める技術が開示されている。特許文献2には、続け字で入力された手書き文字データの文字認識を行う場合に、正確に文字切出しを行うことにより文字認識率を高める技術が開示されている。
特開2005-258577号公報 特開平9-6920号公報
 手書き文書の文字認識の精度は依然として十分ではなく、手書き文書の文字認識を行った結果のデジタル文書データでは、文字の欠損や誤認識が存在する。このため、デジタル文書データに対してキーワード検索を行っても、キーワード検索が上手く機能せず、所望する手書き文書を迅速に検索、閲覧することは困難である。
 手書き文書の文字認識の精度が不十分である原因の1つとして、手書き文字の形状は記入者毎の筆跡等に応じて異なることが挙げられる。文字の筆跡等は、記入者固有のものであるため、同じ記入者が書いた文書であれば、同じような誤認識が繰り返し生じるおそれがある。
 本発明は、上記事情に鑑みてこれを解決すべくなされたものであり、キーワード検索のヒット率を向上させることを目的としている。
 本発明は、以下の示す構成を備える。
[1] キーワードの入力を受け付ける入力受付部と、
 手書き文書の文書画像データに文字認識処理を施し、テキストデータとした文書ファイルと、前記手書き文書に文字を記入した記入者名と、が格納されたデジタル文書データベースから、前記記入者名と前記文書ファイルとを取得する文書取得部と、
 記入者名と、キーワードと、対応キーワードとを対応付けた情報が格納された対応キーワードデータベースを参照し、前記入力受付部から入力されたキーワードと、前記文書取得部により取得された記入者名とから、前記入力されたキーワードの対応キーワードを取得する対応キーワード取得部と、
 前記文書取得部により取得された文書ファイルを、前記入力されたキーワード及び取得された対応キーワードにより検索する文書検索部と、
 前記文書検索部による検索結果を出力する検索結果出力部と、を有する文書検索装置。
[2] 前記手書き文書の文書画像データが格納された文書画像データベースと、前記文書画像データベースから、文書ファイルと対応する文書画像データを取得して出力する文書画像出力部とをさらに有し、
 前記検索結果出力部は、
 前記文書ファイルの中から、前記入力されたキーワード又は前記対応キーワードを含むテキストデータを検索結果として出力し、
 前記文書画像出力部は、
 前記テキストデータの一部が選択された場合に、前記選択されたテキストデータの一部が含まれる文書ファイルと対応する文書画像データを取得して出力する、[1]記載の文書検索装置。
[3] 前記文書検索部は、
 前記入力されたキーワードと、前記対応キーワードとのそれぞれを用いてあいまい検索を行い、
 前記検索結果出力部は、
 前記あいまい検索の結果を前記検索結果に含める、[1]又は[2]記載の文書検索装置。
[4] 対応キーワードデータベースに格納された情報が、前記対応キーワード又はあいまい検索において検索キーワードとされたキーワードと、前記文書取得部が取得した記入者名と、前記入力受付部により入力されたキーワードと、さらに、選択回数と、を有し、
 前記検索結果において、前記対応キーワードによる検索又はあいまい検索の結果として出力されたテキストデータの一部が選択された場合に、
 前記選択回数を更新して、前記対応キーワードデータベースに格納する対応キーワード更新部を有する、[2]又は[3]記載の文書検索装置。
[5] 予測モデルを学習させる予測モデル学習部及び予測モデルが格納されるモデル記憶部をさらに有し、
 前記予測モデル学習部は、前記対応キーワードデータベースに格納された情報を学習データとして予測モデルに学習させ、前記モデル記憶部は、学習した学習済予測モデルを格納し、
 前記学習済予測モデルは、前記入力されたキーワードと、前記取得された記入者名とが入力されると、対応キーワードを予測し、予測されたキーワードを出力し、
 前記文書検索部は、前記文書取得部により取得された文書ファイルを、前記入力されたキーワード及び前記予測された対応キーワードにより検索する、[1]ないし[4]の何れか一項に記載の文書検索装置。
[6] 予測モデルを学習させる予測モデル学習部及び予測モデルが格納されるモデル記憶部を有し、
 前記予測モデル学習部は、前記対応キーワード更新部が格納する更新された対応付け情報を学習データとして予測モデルに学習させ、前記モデル記憶部は、学習した学習済予測モデルを格納し、
 前記学習済予測モデルは、前記入力されたキーワードと、前記取得された記入者名とが入力されると、対応キーワードを予測し、予測されたキーワードを出力し、
 前記文書検索部は、前記文書取得部により取得された文書ファイルを、前記入力されたキーワード及び前記予測された対応キーワードにより検索する、[4]に記載の文書検索装置。
[7] 前記予測モデル学習部は、前記検索結果からテキストデータが選択されると、選択されたテキストデータに含まれる、入力キーワードから生成されたキーワードと、記入者名と、入力キーワードとを対応付けた対応付け情報を保持し、
 前記予測モデル学習部は、前記対応付け情報からなる対応付け情報群を学習データとして予測モデルに学習させ、
 前記モデル記憶部は、学習した学習済予測モデルを格納し、
 前記モデル記憶部に前記学習済予測モデルが格納された後は、
 前記学習済予測モデルは、前記入力されたキーワードと、前記取得された記入者名とが入力されると、対応キーワードを予測し、予測された対応キーワードを出力し、
 前記文書検索部は、前記文書取得部により取得された文書ファイルを、前記入力されたキーワード及び前記予測された対応キーワードにより検索する、[6]に記載の文書検索装置。
[8] 前記対応キーワードは、
 前記対応キーワードと対応付けられたキーワードに前記文字認識処理を施した結果として誤認識された文字を含む文字列である、[1]ないし[7]の何れか一項に記載の文書検索装置。
[9] 文書検索装置と、端末装置とを有する文書検索システムであって、
 前記文書検索装置は、
 キーワードの入力を受け付ける入力受付部と、
 手書き文書の文書画像データに文字認識処理を施し、テキストデータとした文書ファイルと、前記手書き文書の文字を記入した記入者名と、が格納されたデジタル文書データベースから、前記記入者名と前記文書ファイルとを取得する文書取得部と、
 記入者名と、キーワードと、対応キーワードとを対応付けた情報が格納された対応キーワードデータベースを参照し、前記入力受付部から入力されたキーワードと、前記文書取得部により取得された記入者名とから、前記入力されたキーワードの対応キーワードを取得する対応キーワード取得部と、
 前記文書取得部により取得された文書ファイルを、前記入力されたキーワード及び取得された対応キーワードにより検索する文書検索部と、
 前記文書検索部による検索結果を前記端末装置に出力する検索結果出力部と、を有する文書検索システム。
[10] キーワードの入力を受け付ける処理と、
 手書き文書の文書画像データに文字認識処理を施し、テキストデータとした文書ファイルと、前記手書き文書の文字を記入した記入者名と、が格納されたデジタル文書データベースから、前記記入者名と前記文書ファイルとを取得する処理と、
 記入者名と、キーワードと、対応キーワードとを対応付けた情報が格納された対応キーワードデータベースを参照し、入力されたキーワードと、取得された記入者名とから、前記入力されたキーワードの対応キーワードを取得する処理と、
 前記取得された文書ファイルを、前記入力されたキーワード及び取得された対応キーワードにより検索する処理と、
 検索結果を出力する処理と、をコンピュータに実行させる文書検索プログラム。
[11] コンピュータによる文書検索方法であって、前記コンピュータが、
 キーワードの入力を受け付ける手順と、
 手書き文書の文書画像データに文字認識処理を施し、テキストデータとした文書ファイルと、前記手書き文書の文字を記入した記入者名と、が格納されたデジタル文書データベースから、前記記入者名と前記文書ファイルとを取得する手順と、
 記入者名と、キーワードと、対応キーワードとを対応付けた情報が格納された対応キーワードデータベースを参照し、入力されたキーワードと、取得された記入者名とから、前記入力されたキーワードの対応キーワードを取得する手順と、
 前記取得された文書ファイルを、前記入力されたキーワード及び取得された対応キーワードにより検索する手順と、
 検索結果を出力する手順と、を有する文書検索方法。
 キーワード検索のヒット率を向上させることができる。
第一の実施形態の文書検索システムのシステム構成の一例を示す図である。 第一の実施形態の検索処理について説明する図である。 第一の実施形態の文書検索装置のハードウェア構成を説明する図である。 第一の実施形態のデジタル文書データベースの一例を示す図である。 第一の実施形態の対応キーワードデータベースの一例を示す図である。 第一の実施形態の文書画像データベースの一例を示す図である。 第一の実施形態の文書検索装置の機能を説明する図である。 第一の実施形態の文書検索装置の動作を説明するフローチャートである。 第一の実施形態の検索結果の一覧の表示例を説明する第一の図である。 第一の実施形態の検索結果の一覧の表示例を説明する第二の図である。 第二の実施形態の文書検索装置の機能を説明する図である。 第二の実施形態の対応キーワードデータベースの一例を示す図である。 第二の実施形態の文書検索装置の動作を説明するフローチャートである。 第三の実施形態の文書検索装置の機能を説明する図である。 第三の実施形態の文書検索装置の動作を説明するフローチャートである。 第四の実施形態の文書検索装置の機能を説明する図である。 第四の実施形態の文書検索装置の動作を説明するフローチャートである。 第五の実施形態の文書検索装置の機能を説明する図である。 第五の実施形態のうちの、予測モデル学習部の処理を説明するフローチャートである。
 (第一の実施形態)
 以下に、図面を参照して、第一の実施形態について説明する。図1は、第一の実施形態の文書検索システムのシステム構成の一例を示す図である。
 本実施形態の文書検索システム100は、文書検索装置200を有する。文書検索システム100は、さらに端末装置300を有し、文書検索装置200と端末装置300とは、ネットワークを介して接続されても良い。端末装置300は、通信インターフェース装置等に加えて、キーボード等の入力装置と、液晶ディスプレイ等の出力装置を有する。
 本実施形態の文書検索装置200は、デジタル文書データベース210、対応キーワードデータベース220、文書画像データベース230、検索処理部240を有する。
 デジタル文書データベース210は、文書画像データベース230に格納された紙文書の画像データに対して、OCR(Optical Character Recognition:OCR)処理を施して取得した文字情報を含むデジタル文書ファイル(以下、文書ファイルとも記す。)が格納される。また、デジタル文書データベース210において、デジタル文書ファイルは、紙文書の文書名と、紙文書に文字を記入した記入者の氏名(以下、記入者名とも記す。)と対応付けられている。
 対応キーワードデータベース220は、文書画像データベース230に格納される画像の元となる紙文書に文字等を記入した記入者の名前と、記入者が記入した文字列のうち、誤認識された文字を含む文字列(後述するように、対応キーワードとして扱われる。)と、正しい文字列(正解文字列)(後述するように、入力されたキーワードと対比、参照される。)と、が対応付けられた対応付け情報が格納される。記入者名と、誤認識された文字を含む文字列と、正しい文字列とを対応付けた対応付け情報を、対応キーワードデータベース220に格納して、対応キーワードデータベース220を作成する作業は、あらかじめ人手によって行われてもよい。なお、前記文字等には、数字や記号も含まれる。
 文書画像データベース230は、光学的読み取り装置等により読み取られた紙文書の画像データが格納される。
 尚、紙文書は、例えば、手書きで作成された紙文書等である。手書きの紙文書としては、特定の技術分野についての技術文書が挙げられ、紙媒体に手書きで作成された記録ノートや報告書等、手書き文字情報を含む設計図面や写真等、手書き文字情報の付加された測定記録紙等が含まれる。
 紙文書は、または、活字の印刷された紙文書等である。活字印刷の紙文書としては、特定の技術分野の技術文書が挙げられ、紙媒体に活字の印刷された報告書、設計図面等が含まれる。対象とする紙文書としては、手書きの紙文書と活字印刷の紙文書とが混在してもよい。尚、「紙媒体」には、紙のみではなく、プラスチックフィルム、布、板、皮、壁等も含まれる。
 本実施形態のデジタル文書データベース210、対応キーワードデータベース220、文書画像データベース230は、予め作成されて、文書検索装置200に設けられたものである。
 本実施形態の検索処理部240は、端末装置300や、後述する入力装置24等から、キーワードの入力を受け付けると、デジタル文書データベース210を参照して、手書き文書に文字等を記入した記入者名と文書ファイルとを取得する。そして、検索処理部240は、対応キーワードデータベース220を参照し、文書ファイルと対応する記入者名に基づき、入力されたキーワード及び記入者名と対応付けられた対応キーワードを取得する。尚、以下の説明では、入力されたキーワードを入力キーワードと呼ぶ。
 次に、検索処理部240は、取得された対応キーワードと、入力キーワードとによって、デジタル文書データベース210に含まれる文書ファイルを検索し、その検索結果を端末装置300に出力する。検索処理部240は、この処理をデジタル文書データベース210に格納された全ての文書ファイルについて行う。
 つまり、本実施形態の検索処理部240は、入力キーワードによるデジタル文書データベース210の検索に加えて、入力キーワードとして参照されるべき文字列であって、誤認識した結果である文字を含む文字列である対応キーワードによるデジタル文書データベース210の検索も行う。
 以下に、図2を参照して、検索処理部240の処理について、さらに説明する。図2は、第一の実施形態の検索処理について説明する図である。
 紙文書に手書きで記入された文字は、同一の文字であっても、記入者の筆跡によって形状が異なる。具体的には、例えば、記入者によって、偏と旁と間の距離が離れていたり、旧字体や略字、崩し字等が用いられたりする。また、記入者の思い込みによる誤字が記入されることもある。
 偏と旁と間の距離が離れている場合には、偏と旁が別々の文字として誤認識される場合がある。また、旧字体や略字、崩し字等は、本来の意図とは異なる文字として誤認識される場合がある
 図2では、手書きで紙文書に記入された手書き文字列と、手書き文字列に対してOCR処理を施して文字認識を行った結果であるデジタル文字列と、手書き文字列が意図する正解文字列と、手書き文字の筆跡のタイプとを対応付けた表を示している。
 この表では、例えば、正解文字列「飛行」を紙文書に記入した記入者は、「飛」という文字を省略して記入している。このため、手書き文字「飛」は、文字認識の結果のデジタル文字では「レ」とされている。したがって、この記入者の手書き文字列「飛行」は、デジタル文字列「レ行」に誤認識されたことがわかる。
 また、例えば、正解文字列「問題」を紙文書に記入した記入者は、「問」という文字を省略して記入している。このため、手書き文字「問」は、文字認識の結果のデジタル文字では「同」とされている。したがって、この記入者の手書き文字列「問題」は、デジタル文字列「同題」に誤認識されたことがわかる。
 他にも、例えば、記入者が、正解文字列「溶液」の偏部分のさんずいをそれぞれ崩して書いた場合、「1容1夜」と誤認識される。また、記入者が、正解文字列「研究」を旧字体で書いた場合には、「石チキ究」と誤認識される。
 このように、手書き文書の場合は、記入者の筆跡(書き癖)に由来する文字の誤認識が生じる。この誤認識は、記入者に固有のものであるため、同じ記入者が書いた文書であれば、同じような誤認識を繰り返す。
 そこで、本実施形態では、予め、記入者毎に、正解文字列とデジタル文字列とを対応付けて、対応キーワードデータベース220に格納しておく。
 例えば、図2の例が、ある一人の記入者xによって記入された紙文書に対して文字認識を行った結果である場合、記入者xと、正解文字列「飛行」と、誤認識された結果であるデジタル文字列「レ行」と、を対応付けた対応付け情報として、対応キーワードデータベース220に格納しておく。
 また、対応キーワードデータベース220には、同様に、記入者xと、正解文字列「問題」と、誤認識された結果であるデジタル文字列「同題」とを対応付けた対応付け情報が格納される。
 そして、検索処理部240は、例えば、入力キーワード「飛行」が入力された場合には、文書ファイルに対して、入力キーワード「飛行」による検索と、「飛行」と対応するデジタル文字列である対応キーワード「レ行」による検索とを行う。
 本実施形態では、このように、手書き文字を誤認識した結果である文字を含む文字列(対応キーワード)と、手書き文字が本来意味している単語である正解文字列(入力キーワード)と、を用いて、検索処理を行うことになる。
 したがって、本実施形態では、例えば、デジタル文書データベース210に格納された文書ファイルにおいて、入力キーワードと一致する単語がOCR処理の際に誤って認識されていた場合や、あるいは正しく認識されてはいるが、元の文字がそもそも誤字であった場合でも、対応キーワードによる検索によって、入力キーワードを入力したユーザが所望する文書が抽出される可能性が高まる。
 このため、本実施形態によれば、キーワード検索のヒット率を上げつつ、誤検出を防ぐことができる。
 尚、図1の例では、デジタル文書データベース210、対応キーワードデータベース220、文書画像データベース230が、文書検索装置200に設けられるものとしたが、これに限定されない。デジタル文書データベース210、対応キーワードデータベース220、文書画像データベース230のそれぞれは、文書検索装置200と通信が可能な外部装置に設けられていても良い。また、デジタル文書データベース210、対応キーワードデータベース220、文書画像データベース230は、その一部が文書検索装置200に設けられても良い。
 次に、図3を参照して、本実施形態の文書検索装置200のハードウェア構成について説明する。図3は、第一の実施形態の文書検索装置のハードウェア構成を説明する図である。
 本実施形態の文書検索装置200は、画像入力装置及びコンピュータを含む文書情報を扱う装置である。言い換えれば、本実施形態の文書検索装置200は、CPU(Central Processing Unit)21、主記憶装置22、補助記憶装置23、入力装置24、出力装置25、通信インターフェース装置26、ドライブ装置27を有し、それぞれがバスで接続された情報処理装置である。
 CPU21は、文書検索装置200の動作を制御する主制御部であり。主記憶装置22に格納された文書検索プログラムを読みだして実行することで、後述する各種の機能を実現する。
 主記憶装置22は、文書検索装置200の起動時に補助記憶装置23から文書検索プログラムを読み出して格納する。補助記憶装置23は、インストールされた文書検索プログラムを格納すると共に、上述した各データベース等の必要なファイル、データ等を格納する。
 入力装置24は、各種の情報の入力を行うための装置であり、例えばキーボードやポインティングデバイス等により実現される。出力装置25は、各種の情報の出力を行うためものであり、例えばディスプレイ等により実現される。通信インターフェース装置26は、LANカード等を含み、ネットワークに接続する為に用いられる。
 本実施形態の検索処理部240を実現する文書検索プログラムは、文書検索装置200を制御する各種プログラムの少なくとも一部である。文書検索プログラムは、例えば記録媒体28の配布やネットワークからのダウンロード等によって提供されてもよい。文書検索プログラムを記録した記録媒体28は、CD-ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的、電気的或いは磁気的に記録する記録媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。
 また、文書検索プログラムは、文書検索プログラムを記録した記録媒体28がドライブ装置27にセットされると、記録媒体28からドライブ装置27を介して補助記憶装置23にインストールされる。ネットワークからダウンロードされた文書検索プログラムは、通信インターフェース装置26を介して補助記憶装置23にインストールされる。
 次に、図4ないし図6を参照して、本実施形態の各データベースについて説明する。本実施形態の各データベースは、例えば、補助記憶装置23等の記憶領域に設けられても良い。
 図4は、第一の実施形態のデジタル文書データベースの一例を示す図である。本実施形態のデジタル文書データベース210は、情報の項目として、文書ID、文書名、記入者名、文書ファイルとが対応付けられている。デジタル文書データベース210において、各項目の値を含む情報が、デジタル文書情報である。
 項目「文書ID」の値は、文書画像データベース230に画像データとして格納された紙文書を特定するための識別情報である。尚、項目「文書ID」の値は、手書き文書の画像データの作成された年月日情報や、年月日情報に付加された枝番号で構成されてもよい。
 項目「文書名」の値は、文書画像データベース230に画像データとされて格納された紙文書の名称である。
 項目「記入者名」の値は、文書名によって特定される紙文書に手書き文字を記入した記入者の氏名を示す。言い換えれば、項目「記入者名」の値は、紙文書に手書き文字を記入した記入者を特定する情報である。
 項目「文書ファイル」の値は、文書名によって特定される紙文書の画像データにOCR処理を施して取得された文書ファイルそのものである。本実施形態の文書ファイルは、テキストデータである。
 図4の例では、例えば、文書名「1960年6月度_月報」という紙文書は、記入者名「i」という人物によって記入され、「1960年6月度_月報テキスト」というテキストデータとされたことがわかる。
 図5は、第一の実施形態の対応キーワードデータベースの一例を示す図である。本実施形態の対応キーワードデータベース220は、情報の項目として、記入者名、キーワード、対応キーワードを有する。対応キーワードデータベース220において、各項目の値を含む情報が、対応付け情報である。
 項目「キーワード」の値は、記入者名によって特定される記入者が意図したキーワードを示す。言い換えれば、項目「キーワード」の値は、図2に示す正解文字列である。
 項目「対応キーワード」の値は、記入者によって手書き入力された文字が誤認識された結果である文字を含む文字列である。言い換えれば、項目「対応キーワード」の値は、図2に示すデジタル文字列である。
 図5の例では、例えば、記入者名「i」と、対応するキーワード「水酸化」と、対応する対応キーワード「力酸ヒ」とが対応付けられている。これは、記入者名「i」が記入した手書き文字列「水酸化」に対してOCR処理を施した結果、「力酸ヒ」と誤認識されたことを示している。
 図6は、第一の実施形態の文書画像データベースの一例を示す図である。本実施形態の文書画像データベース230は、情報の項目として、文書ID、文書名、文書画像データを有する。
 項目「文書画像データ」の値は、紙文書を光学的読み取り装置によって読み取った画像データである。本実施形態の文書画像データは、例えば、pdfファイルとして格納されていても良いし、画像データとして格納されていても良い。
 以下の説明では、文書画像データベース230において、項目「文書ID」の値と、その他の項目の値とを含む情報とを、文書画像情報と呼ぶ。
 尚、文書画像データベース230は、図6に示す項目以外の項目を含んでいても良い。具体的には、例えば、文書画像情報が文書画像データベース230に格納された年月日や、文書画像情報を格納する処理を行った担当者の氏名等が、文書画像データベース230の項目として含まれても良い。
 次に、図7を参照して、本実施形態の文書検索装置200の機能について説明する。図7は、第一の実施形態の文書検索装置の機能を説明する図である。
 本実施形態の文書検索装置200は、デジタル文書データベース210、対応キーワードデータベース220、文書画像データベース230と、検索処理部240と、を有する。
 本実施形態の検索処理部240は、入力受付部241、文書取得部242、対応キーワード取得部244、文書検索部245、検索結果出力部246、選択受付部247、文書画像出力部248を有する。
 入力受付部241は、文書検索装置200に対する各種の入力を受け付ける。具体的には、入力受付部241は、入力キーワードによる検索要求の入力を受け付ける。
 文書取得部242は、デジタル文書データベース210に格納された文書ファイルと手書き文書を記入した記入者名とを取得する。
 対応キーワード取得部244は、対応キーワードデータベース220を参照し、文書取得部242が取得した記入者名と、入力キーワードとに対応付けられた対応キーワードを取得する。
 文書検索部245は、文書取得部242が取得した文書ファイルに対して、入力キーワードによる検索と、対応キーワードによる検索とを行う。また、文書検索部245は、入力キーワードと対応キーワードとを用いて文書ファイルのあいまい検索を行っても良い。
 より具体的には、文書検索部245は、入力キーワードと、対応キーワードとのそれぞれについて、一部の文字列を任意の文字列に置き換えた検索キーワードを生成し、生成されたキーワードで、文書ファイルの検索を行っても良い。
 検索結果出力部246は、文書検索部245による検索結果を出力する。具体的には、検索結果出力部246は、検索結果として、検索に用いた入力されたキーワード又は対応キーワードを含む文書ファイルのテキストデータの、例えば前記キーワードを含むテキストデータの一部を一覧として端末装置300等に表示させる。
 選択受付部247は、出力された検索結果の一覧から、特定の検索結果の選択を受け付ける。具体的には、選択受付部247は、検索結果として表示された文書ファイルの一部に対する選択を受け付ける。
 文書画像出力部248は、文書画像データベース230を参照し、選択受付部247によって選択された検索結果と対応する文書画像データを取得して、出力する。具体的には、文書画像出力部248は、検索結果と対応する文書画像データを取得し、例えば前記キーワードを含む文書画像の一部を端末装置300に表示させる。
 以下に、図8を参照して、本実施形態の文書検索装置200の動作について説明する。図8は、第一の実施形態の文書検索装置の動作を説明するフローチャートである。
 本実施形態の文書検索装置200の検索処理部240は、入力受付部241により入力キーワードの入力を受け付ける(ステップS801)。
 続いて、検索処理部240は、文書取得部242により、デジタル文書データベース210に格納された文書ファイルの中から、1つの文書ファイルと、この文書ファイルと対応する記入者名とを取得する(ステップS802)。
 続いて、検索処理部240は、対応キーワード取得部244により、対応キーワードデータベース220を参照して、入力キーワードと記入者名とに対応付けられた対応キーワードを取得する(ステップS803)。
 次に、検索処理部240は、文書検索部245により、入力キーワード及び対応キーワードにより、ステップS802で取得した文書ファイルを検索する(ステップS804)。尚、このとき、検索結果として得られた文書ファイルの文書ID等を、文書検索部245が保持していても良い。
 このとき、本実施形態の文書検索部245は、入力キーワードと対応キーワードのそれぞれ、又は、何れか一方に対して、あいまい検索を実施しても良い。
 あいまい検索とは、例えば、文字列の一部を任意の文字で置換えたワイルドカード検索を意味する。尚、ワイルドカード検索は一例であり、ワイルドカード検索以外の方法であいまい検索を行っても良い。具体的には、例えば、文書検索部245はWord2Vec技術やディープラーニングによる単語類似度検索を実施しても良い。
 続いて、文書検索部245は、デジタル文書データベース210に格納された全ての文書ファイルに対して、検索を行ったか否かを判定する(ステップS805)。ステップS805において、全ての文書ファイルに対して検索を行っていない場合、検索処理部240は、ステップS802へ戻る。
 ステップS805において、全ての文書ファイルについて、検索を行った場合、検索処理部240は、検索結果出力部246により、検索結果としてヒットした文書ファイルが存在するか否かを判定する(ステップS806)。
 ステップS806において、該当する文書ファイルが存在しない場合、検索処理部240は、検索結果出力部246により、該当する文書ファイルが存在しないことを示す通知を端末装置300へ出力し(ステップS807)、処理を終了する。
 ステップS806において、該当する文書ファイルが存在する場合、検索結果出力部246は、該当する文書ファイルから、ヒットしたキーワードを含むテキストデータを文書ファイルから取得する(ステップS808)。
 続いて、検索結果出力部246は、取得したテキストデータのうち、例えばヒットしたキーワードを含む前後のテキストデータの一部の一覧を、検索結果として端末装置300に出力する(ステップS809)。
 続いて、検索処理部240は、選択受付部247により、検索結果として出力されたテキストデータに対する選択を受け付けたか否かを判定する(ステップS810)。
 ステップS810において、選択を受け付けない場合、検索処理部240は、処理を終了する。
 ステップS810において、選択を受け付けた場合、文書画像出力部248は、文書画像データベース230において、選択されたテキストデータを含む文書ファイルの文書IDと対応する文書画像データを取得し、例えば前記キーワードを含む文書画像の一部を端末装置300に出力して(ステップS811)、処理を終了する。
 検索結果として出力されたテキストデータに対して、検索を行う利用者は、検索においてヒットしたキーワードを含むテキストデータの、少なくとも一部を選択して、選択されたテキストデータの一部を含む文書ファイルの文書IDと対応する文書画像データを表示させ、ヒットした文書ファイルが所望の文書ファイルであることを確認することができる。即ち、検索を行う利用者は、前記検索結果を得ると、選択受付部247に対して、出力されたテキストデータの一部を選択する選択手続を行うことにより、ヒットした文書ファイルに対応する文書画像データを表示させ、得られた検索結果が適切であることを確認できる。
 以下に、図9を参照して、図8のステップS809において端末装置300に出力される検索結果の一覧の表示例について説明する。
 図9は、第一の実施形態の検索結果の一覧の表示例を説明する第一の図である。図9に示す画面91では、「黒鉛電極」を検索しようとする際に、入力キーワードとして「黒鉛」を含む、「黒鉛電極」が入力された場合の検索結果の一覧の例を示している。このとき、「黒鉛電極」の「電極」は、固定キーワードして、以下、入力キーワード及び対応キーワード等と組合せて検索に用いる形態として示す。
 この場合、検索処理部240は、始めに、デジタル文書データベース210を参照して、文書ID「1」の文書ファイルと、文書ID「1」と対応する記入者名「i」を取得する(図4参照)。
 次に、検索処理部240は、対応キーワードデータベース220を参照して、入力キーワード「黒鉛」及び記入者名「i」と対応する対応キーワードを取得する。この場合、対応キーワードデータベース220では、文字列「黒鉛」及び記入者名「i」と対応する対応キーワードとして、「里鉛」が取得される(図5参照)。
 検索処理部240は、対応キーワードが取得されると、文書ID「1」の文書ファイルを、入力キーワードを含む「黒鉛電極」と対応キーワードを含む「里鉛電極」とのそれぞれで検索する。検索処理部240は、この処理をデジタル文書データベース210内の全ての文書ファイルに対して行う。
 その結果、入力キーワードを含む「黒鉛電極」は、文書名「A」の文書ファイルにおいてヒットし、対応キーワードを含む「里鉛電極」は、文書名「E」の文書ファイルにおいてヒットした。
 したがって、検索処理部240は、検索結果の一覧として、文書名「A」と記入者名「i」を示す情報92と、文書名「A」の文書ファイルのうち、入力キーワードを含む「黒鉛電極」を含む前後のテキストデータ93と、を表示させる。情報92は、テキストデータ93の元となる文書ファイルを特定するための文書名と記入者名を含む付加情報である。
 また、検索処理部240は、同様に、文書名「E」と記入者名「i」を示す情報94と、文書名「E」の文書ファイルのうち、対応キーワードを含む「里鉛電極」を含む前後のテキストデータ95と、を表示させる。
 本実施形態では、このように、全ての検索結果について、文書名と、記入者名と、ヒットしたキーワードを含むキーワードの前後のテキストデータと、を一覧表示させる。
 尚、このとき、入力キーワードや対応キーワードを含む文字列は、テキストデータにおいて、ハイライト表示やアンダーライン表示等の強調表示とされていても良い。また、本実施形態では、テキストデータにおける入力キーワードを含む文字列と、対応キーワードを含む文字列との強調表示のさせ方を異ならせても良い。
 また、本実施形態の検索処理部240は、例えば、画面91において、テキストデータ93が選択されると、テキストデータ93と対応する文書ID「1」の文書画像データを文書画像データベース230から取得し、表示させる。
 本実施形態では、このように、デジタル文書データベース210内に格納された文書ファイルに対する検索を行って、検索結果を表示させ、検索結果から選択されたテキストデータと対応する文書画像データを端末装置300に表示させる。
 本実施形態では、これにより、例えば、文書画像データと対応する文書ファイルにおいて、入力キーワードとして参照されるべき正解文字列が誤認識されていた場合であっても、検索結果として取得することができる。
 図10は、第一の実施形態の検索結果の一覧の表示例を説明する第二の図である。図9に示す画面91Aでは、入力キーワードとして「黒鉛」を含む、「黒鉛電極」が入力された場合の検索結果の一覧の例を示している。
 図10に示す画面91Aでは、テキストデータに付加される情報が、図9の例と異なる。画面91Aにおいて、テキストデータ93に付加される情報92Aは、文書ファイルの文書名が「A」であり、記入者名が「i」であり、検索においてヒットしたキーワードが入力キーワードであることを示している。
 また、テキストデータ95に付加された情報94Aは、文書ファイルの文書名が「E」であり、記入者名が「i」であり、検索においてヒットしたキーワードが対応キーワードであることを示している。
 さらに、テキストデータ97に付加された情報96は、文書ファイルの文書名が「P」であり、記入者名が「k」であり、検索においてヒットしたキーワードがあいまい検索に用いられたキーワードであることを示している。
 このように、本実施形態では、検索結果として取得されたテキストデータに含まれるキーワードの種類を検索結果の一覧に含めることもできる。
 本実施形態では、このようにすることで、例えば、検索を行う利用者が所望する文書画像データを発見しやすくすることができるし、対応キーワードを用いて得られた検索結果が適切であったかどうかの確認を行うこともできる。
 具体的には、例えば、検索を行う利用者が、文字を記入した者が記入者「i」であることは知らずに、記入者「i」が文字を記入した紙文書の文書画像データの閲覧を所望していたとする。この場合、入力キーワードを含む文書ファイルよりも、記入者「i」の対応キーワードを含む文書ファイルの方が、利用者が所望する文書画像データと対応している可能性が高い場合が考えられる。この場合、利用者は、例えば、テキストデータ95を選択すれば、所望の文書画像データを閲覧することができる。
 また、本実施形態では、検索結果には、検索に用いられたキーワードの種類に応じて優先順位が付与されても良く、図9及び図10に示す検索結果の一覧では、この優先順位に基づいて検索結果が表示されても良い。尚、検索結果とは、テキストデータと、テキストデータに付加された付加情報とを含むものである。
 具体的には、例えば、本実施形態では、入力キーワードの優先順位が最も高く、次に対応キーワードの優先順位が高く、あいまい検索で用いられたキーワードの優先順位が最も低くなるように設定しても良い。
 その場合、図10に示すように、入力キーワードを含む検索結果は、一覧のうち最上位に表示され、あいまい検索に用いられたキーワードを含む検索結果は、一覧のうち最下位に表示される。
 本実施形態では、このように、検索結果の表示順に優先順位を付与することで、文字認識の精度が高い文書ファイルから順に利用者に検索結果を表示させることができる。
 (第二の実施形態)
 以下に、図面を参照して第二の実施形態について説明する。第二の実施形態は、検索結果の一覧におけるテキストデータの選択に応じて、対応キーワードデータベースが更新される点が、第一の実施形態と相違する。よって、以下の第二の実施形態の説明では、第一の実施形態との相違点について説明し、第一の実施形態と同様の機能構成を有するものには、第一の実施形態の説明で用いた符号を付与し、その説明を省略する。
 図11は、第二の実施形態の文書検索装置の機能を説明する図である。
 本実施形態の文書検索装置200Aは、デジタル文書データベース210、対応キーワードデータベース220A、文書画像データベース230と、検索処理部240Aと、を有する。
 本実施形態の対応キーワードデータベース220Aは、検索結果の一覧において、選択されたテキストデータが選択される度に更新される。対応キーワードデータベース220Aの詳細は後述する。
 本実施形態の検索処理部240Aは、第一の実施形態の検索処理部240の有する各部に加えて、対応キーワード更新部249を有する。
 対応キーワード更新部249は、選択受付部247がテキストデータの選択を受け付ける度に、つまり、文書画像データが出力される度に、対応キーワードデータベース220Aを更新する。対応キーワード更新部249の処理の詳細は後述する。
 図12は、第二の実施形態の対応キーワードデータベースの一例を示す図である。本実施形態の対応キーワードデータベース220Aは、情報の項目として、記入者名、キーワード、対応キーワードに加え、選択回数を有する。
 項目「選択回数」の値は、検索結果の一覧から、記入者名と入力キーワード又は対応キーワードの組み合わせを含むテキストデータが選択された回数を示す。項目「選択回数」の値は、検索結果の一覧を表示させる際に、参照されても良い。
 次に、図13を参照して、本実施形態の文書検索装置200Aの動作について説明する。図13は、第二の実施形態の文書検索装置の動作を説明するフローチャートである。
 図13のステップS1301からステップS1311までの処理は、図8のステップS801からステップS811までの処理と同様であるから、説明を省略する。
 検索処理部240Aは、ステップS1311において、文書画像データを取得し、端末装置300に出力すると、選択されたテキストデータに付加された付加情報と対応する対応付け情報が対応キーワードデータベース220A内に存在するか否かを判定する(ステップS1312)。
 ステップS1312において、該当する対応付け情報が対応キーワードデータベース220Aに存在する場合、対応キーワード更新部249は、該当する対応付け情報の選択回数を更新し、対応キーワードデータベース220Aに格納して(ステップS1313)、処理を終了する。具体的には、対応キーワード更新部249は、該当する対応付け情報の選択回数を1回増やして処理を終了する。
 ステップS1312において、該当する対応付け情報が存在しない場合、検索処理部240は、対応キーワードデータベース220Aに、付加情報に基づく新たな対応付け情報を生成して追加し、対応キーワードデータベース220Aに格納して(ステップS1314)、処理を終了する。
 以下に、図9、図10、図12を参照して、対応キーワード更新部249の処理について具体的に説明する。
 例えば、画面91において、テキストデータ95が選択されたとする。この場合、テキストデータ95には付加情報94が付加されている。
 テキストデータ95は、キーワード「里鉛」でヒットしたものであり、付加情報92には記入者名「i」を示す情報が含まれる。したがって、このテキストデータ95が選択されたということは、キーワード「里鉛」と記入者名「i」の組み合わせが選択されたことを意味する。
 したがって、対応キーワード更新部249は、対応キーワードデータベース220Aの対応付け情報121において、選択回数の値を1加算する。
 また、例えば、図10に示す画面91Aにおいて、テキストデータ97が選択されたとする。この場合、テキストデータ97には、付加情報96が付加されている。
 テキストデータ97は、あいまい検索によって生成されたキーワード「白金」によってヒットしたものであり、付加情報96には、記入者名「k」を示す情報が含まれる。したがって、このテキストデータ97が選択されたということは、キーワード「白金」と記入者名「k」の組み合わせが選択されたことを意味する。
 対応キーワード更新部249は、キーワード「白金」と記入者名「k」とを対応付けた対応付け情報が対応キーワードデータベース220Aに格納されていないため、キーワード「白金」を新たな対応キーワードとし、記入者名「k」と、入力キーワードであるキーワード「黒鉛」と、対応キーワード「白金」とを対応付けた対応付け情報を生成し、選択回数を1回として、対応キーワードデータベース220Aに追加して格納する。
 このように、本実施形態では、検索結果からテキストデータが選択される度に、対応キーワードデータベース220Aが更新される。言い換えれば、本実施形態では、閲覧する文書画像データが選択される度に、対応キーワードデータベース220Aが更新される。
 検索処理を繰り返した場合には、検索結果を表示させる際に、対応キーワードデータベース220Aの選択回数が多いキーワードでヒットした検索結果から順に表示させても良い。
 このため、本実施形態によれば、検索処理を繰り返す程、キーワード検索のヒット率を上げることができる。
 例えば、入力キーワードを「水酸化」として検索処理を行った場合について考える。この場合に、例えば、入力キーワード「水酸化」で、記入者名「i」の文書ファイルがヒットし、対応キーワード「水酸ヒ」で、記入者名「k」のヒットした文書ファイルがヒットしたとする。
 この場合、文書検索部245は、対応キーワードデータベース220Aを参照し、対応付け情報が含む選択回数が大きい対応キーワードによる検索結果を優先的に表示させる。
 図12の例では、対応キーワード「カ酸ヒ」と記入者名「i」の組み合わせを含む対応付け情報122の選択回数は10回であり、対応キーワード「水酸ヒ」と記入者名「k」の組み合わせを含む対応付け情報123の選択回数は12回である。
 したがって、対応キーワード更新部249は、対応キーワード「水酸ヒ」で、記入者名「k」のヒットした文書ファイルのテキストデータを、対応キーワード「カ酸ヒ」で、記入者名「i」の文書ファイルのテキストデータよりも上位に表示させる。
 本実施形態では、このように表示順を決定することで、検索を行った利用者によって選択された回数が多い組み合わせのテキストデータから順に表示させることができる。
 (第三の実施形態)
 第三の実施形態は、対応キーワードデータベース220に格納された対応付け情報を学習データとして、対応キーワードを予測する予測モデルを学習させ、予測モデルを用いて予測出力された、予測された対応キーワードを取得する点が第一の実施形態と相違する。よって、以下の第三の実施形態の説明では、第一の実施形態との相違点について説明し、第一の実施形態と同様の機能構成を有するものには、第一の実施形態の説明で用いた符号を付与し、その説明を省略する。
 図14は、第三の実施形態の文書検索装置の機能を説明する図である。
 本実施形態の文書検索装置200Bは、デジタル文書データベース210、対応キーワードデータベース220、文書画像データベース230と、検索処理部240Bと、モデル記憶部250とを有する。
 検索処理部240Bは、入力受付部241、文書取得部242、対応キーワード取得部244、文書検索部245、検索結果出力部246、選択受付部247、文書画像出力部248、予測モデル学習部251を有する。
 予測モデル学習部251は、対応キーワードデータベース220に格納された対応付け情報を学習データとして予測モデル260に入力し、機械学習等によって予測モデル260が学習し、学習した学習済予測モデル260Aをモデル記憶部250に格納する。尚、モデル記憶部250は、予測モデル260を記憶していても良い。
 学習予測モデル260Aは、入力キーワードと記入者名とが入力されると、対応キーワードを予測し、予測された対応キーワードを出力する。予測された対応キーワードは複数あってもよい。
 対応キーワード取得部244は、文書取得部242が取得した記入者名と、入力キーワードとを、モデル記憶部250に記憶された、学習済予測モデル260Aに入力し、学習済予測モデル260Aにより予測された結果である予測された対応キーワードを取得する。
 図15は、第三の実施形態の文書検索装置の動作を説明するフローチャートである。図15のステップS1501とステップS1502は、図8のステップS801とステップS802と同様であるから、説明を省略する。
 検索処理部240Bは、対応キーワード取得部244により、ステップS1502において、記入者名を取得すると、記入者名と入力キーワードとを学習済予測モデル260Aへ入力し、学習済予測モデル260Aによる予測結果である予測された対応キーワードを取得する(ステップS1503)。
 続いて、検索処理部240Bは、文書検索部245により、入力キーワードと予測された対応キーワードとによって、文書取得部242が取得した文書ファイルを検索する(ステップS1504)。
 ステップS1504からステップS1511までの処理は、図8のステップS804からステップS811までの処理と同様であるから、説明を省略する。
 以上のように、本実施形態では、対応キーワードデータベース220に格納された対応付け情報を学習データとして、学習済予測モデル260Aを構築する。学習済予測モデル260Aは、例えば、入力キーワードと記入者の筆跡とから、入力キーワードと形状が類似する文字列を対応キーワード等として予測出力しても良い。
 (第四の実施形態)
 第四の実施形態は、第二の実施形態と第三の実施形態を組み合わせた実施形態である。以下の第四の実施形態の説明では、第二の実施形態及び第三の実施形態が要する機能構成と同様の機能構成を有するものには、第二の実施形態及び第三の実施形態の説明で用いた符号を付与し、その説明を省略する。
 図16は、第四の実施形態の文書検索装置の機能を説明する図である。
 本実施形態の文書検索装置200Cは、デジタル文書データベース210、対応キーワードデータベース220A、文書画像データベース230、検索処理部240C、モデル記憶部250を有する。
 検索処理部240Cは、第三の実施形態の検索処理部240Bが有する各部と、対応キーワード更新部249とを有する。
 以下に、図17を参照して、第四の実施形態の文書検索装置200Cの動作について説明する。図17は、第四の実施形態の文書検索装置の動作を説明するフローチャートである。
 図17のステップS1701からステップS1711までの処理は、図15のステップS1501からステップS1511までの処理と同様であるから、説明を省略する。
 ステップS1711に続くステップS1712からステップS1714までの処理は、図13のステップS1312からステップS1314までの処理と同様であるから、説明を省略する。
 ステップS1713、1714に続いて、検索処理部240Cは、予測モデル学習部251により、更新された対応キーワードデータベース220Aを学習データとして、学習済予測モデル260Aがさらに学習して、学習済予測モデル260Bとして更新し、予測モデル学習部251に格納されて(ステップS1715)、処理を終了する。ステップS1715の学習済予測モデルの更新は、文書検索装置の動作毎に行う必要は必ずしもなく、利用者の動作指定により、複数回の動作ごとに行ってもよい。
 本実施形態では、このように、検索を行った利用者が選択した検索結果から更新された対応キーワードデータベース220Aを用いて、学習済予測モデル260Aを更新する。言い換えれば、学習済予測モデルは、入力キーワードと、利用者が選択したテキストデータとの対応付け情報に基づき更新される。
 したがって、本実施形態では、検索処理を行うほど、対応キーワードによるヒット率を向上させることができる。
 (第五の実施形態)
 以下に図面を参照して、第五の実施形態について説明する。第五の実施形態は、対応キーワードデータベースを有しておらず、検索を行った利用者によって選択された検索結果に応じて、予測モデルを構築する点が、第三の実施形態と相違する。よって、以下の第五の実施形態の説明では、第三の実施形態と同様の機能構成を有するものには、第三の実施形態の説明で用いた符号と同様の符号を付与し、その説明を省略する。
 図18は、第五の実施形態の文書検索装置の機能を説明する図である。本実施形態の文書検索装置200Dは、デジタル文書データベース210、文書画像データベース230、検索処理部240D、モデル記憶部250を有する。
 検索処理部240Dは、入力受付部241、文書取得部242、対応キーワード取得部244、文書検索部245、検索結果出力部246、選択受付部247、文書画像出力部248、予測モデル学習部252を有する。
 本実施形態の予測モデル学習部252は、検索結果出力部246によって出力された検索結果からテキストデータが選択されると、選択されたテキストデータに含まれる、検索によってヒットしたキーワードと、記入者名と、入力キーワードとを対応付けた対応付け情報を保持する。
 学習済予測モデル260Aが構築される前の検索処理においてヒットするキーワードとは、入力キーワードと、あいまい検索を行うために入力キーワードから生成されたキーワードである。
 そして、予測モデル学習部252は、所定数の対応付け情報群が蓄積されると、対応付け情報群を学習データとして用いて、予測モデル260に学習させ、学習した学習済予測モデル260Cをモデル記憶部250に格納する。尚、本実施形態の予測モデル学習部252は、例えば、対応付け情報群を人工知能等に提供し、学習済予測モデル260Cを取得しても良い。
 検索処理部240Dは、学習済予測モデル260Cが構築された後は、学習済予測モデル260Cを用いて予測出力された対応キーワードを取得する。
 以下に、図19を参照して、本実施形態の予測モデル学習部252の処理について説明する。図19は、第五の実施形態のうちの、予測モデル学習部の処理を説明するフローチャートである。
 本実施形態の予測モデル学習部252は、記入者名と、入力キーワードと、ヒットしたキーワードとの対応付け情報を所定数蓄積したか否かを判定する(ステップS1901)。所定数とは、予測モデル260の構築に必要な最低限の数であっても良く、予め決められていても良い。蓄積される対応付け情報群の好ましい所定数は、好ましくは2以上であり、より好ましくは5以上であり、さらに好ましくは10以上である。
 ステップS1901において、所定数の対応付け情報が蓄積されていない場合、予測モデル学習部252は、対応付け情報が所定数蓄積されるまで待機する。
 ステップS1901において、対応付け情報が所定数蓄積されると、予測モデル学習部252は、対応付け情報群を学習データとして用いて予測モデル260が学習し、学習済予測モデル260Cを構築し(ステップS1902)、モデル記憶部250へ記憶させ(ステップS1903)、処理を終了する。
 このように、本実施形態によれば、対応キーワードデータベース220を予め作成する必要がなく、検索処理を行うほど、キーワード検索のヒット率を向上させることができる。
 上述した各実施形態は、手書きで記入された紙文書に対して適用することができる。具体的には、例えば、記入者名と、記入者が記入した紙文書の画像データとを対応付けることができれば、どのような紙文書にも適用することができる。
 本発明は、具体的に開示された実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。
 また、本国際出願は、2019年2月14日に出願された日本国特許出願2019-24821に基づく優先権を主張するものであり、日本国特許出願2019-24821の全内容を本国際出願に援用する。
 100 文書検索システム
 200、200A、200B、200C、200D 文書検索装置
 210 デジタル文書データベース
 220、220A 対応キーワードデータベース
 230 文書画像データベース
 240、240A、240B、240C、240D 検索処理部
 241 入力受付部
 242 文書取得部
 244 対応キーワード取得部
 245 文書検索部
 246 検索結果出力部
 247 選択受付部
 248 文書画像出力部
 249 対応キーワード更新部
 250 モデル記憶部
 251、252 予測モデル学習部
 260 予測モデル
 260A、260B、260C 学習済予測モデル
 300 端末装置

Claims (11)

  1.  キーワードの入力を受け付ける入力受付部と、
     手書き文書の文書画像データに文字認識処理を施し、テキストデータとした文書ファイルと、前記手書き文書に文字を記入した記入者名と、が格納されたデジタル文書データベースから、前記記入者名と前記文書ファイルとを取得する文書取得部と、
     記入者名と、キーワードと、対応キーワードとを対応付けた情報が格納された対応キーワードデータベースを参照し、前記入力受付部から入力されたキーワードと、前記文書取得部により取得された記入者名とから、前記入力されたキーワードの対応キーワードを取得する対応キーワード取得部と、
     前記文書取得部により取得された文書ファイルを、前記入力されたキーワード及び取得された対応キーワードにより検索する文書検索部と、
     前記文書検索部による検索結果を出力する検索結果出力部と、を有する文書検索装置。
  2.  前記手書き文書の文書画像データが格納された文書画像データベースと、前記文書画像データベースから、文書ファイルと対応する文書画像データを取得して出力する文書画像出力部とをさらに有し、
     前記検索結果出力部は、
     前記文書ファイルの中から、前記入力されたキーワード又は前記対応キーワードを含むテキストデータを検索結果として出力し、
     前記文書画像出力部は、
     前記テキストデータの一部が選択された場合に、前記選択されたテキストデータの一部が含まれる文書ファイルと対応する文書画像データを取得して出力する、請求項1記載の文書検索装置。
  3.  前記文書検索部は、
     前記入力されたキーワードと、前記対応キーワードとのそれぞれを用いてあいまい検索を行い、
     前記検索結果出力部は、
     前記あいまい検索の結果を前記検索結果に含める、請求項1又は2記載の文書検索装置。
  4.  対応キーワードデータベースに格納された情報が、前記対応キーワード又はあいまい検索において検索キーワードとされたキーワードと、前記文書取得部が取得した記入者名と、前記入力受付部により入力されたキーワードと、さらに、選択回数と、を有し、
     前記検索結果において、前記対応キーワードによる検索又はあいまい検索の結果として出力されたテキストデータの一部が選択された場合に、
     前記選択回数を更新して、前記対応キーワードデータベースに格納する対応キーワード更新部を有する、請求項2又は3記載の文書検索装置。
  5.  予測モデルを学習させる予測モデル学習部及び予測モデルが格納されるモデル記憶部をさらに有し、
     前記予測モデル学習部は、前記対応キーワードデータベースに格納された情報を学習データとして予測モデルに学習させ、前記モデル記憶部は、学習した学習済予測モデルを格納し、
     前記学習済予測モデルは、前記入力されたキーワードと、前記取得された記入者名とが入力されると、対応キーワードを予測し、予測されたキーワードを出力し、
     前記文書検索部は、前記文書取得部により取得された文書ファイルを、前記入力されたキーワード及び前記予測された対応キーワードにより検索する、請求項1ないし4の何れか一項に記載の文書検索装置。
  6.  予測モデルを学習させる予測モデル学習部及び予測モデルが格納されるモデル記憶部を有し、
     前記予測モデル学習部は、前記対応キーワード更新部が格納する更新された対応付け情報を学習データとして予測モデルに学習させ、前記モデル記憶部は、学習した学習済予測モデルを格納し、
     前記学習済予測モデルは、前記入力されたキーワードと、前記取得された記入者名とが入力されると、対応キーワードを予測し、予測されたキーワードを出力し、
     前記文書検索部は、前記文書取得部により取得された文書ファイルを、前記入力されたキーワード及び前記予測された対応キーワードにより検索する、請求項4に記載の文書検索装置。
  7.  前記予測モデル学習部は、前記検索結果からテキストデータが選択されると、選択されたテキストデータに含まれる、入力キーワードから生成されたキーワードと、記入者名と、入力キーワードとを対応付けた対応付け情報を保持し、
     前記予測モデル学習部は、前記対応付け情報からなる対応付け情報群を学習データとして予測モデルに学習させ、
     前記モデル記憶部は、学習した学習済予測モデルを格納し、
     前記モデル記憶部に前記学習済予測モデルが格納された後は、
     前記学習済予測モデルは、前記入力されたキーワードと、前記取得された記入者名とが入力されると、対応キーワードを予測し、予測された対応キーワードを出力し、
     前記文書検索部は、前記文書取得部により取得された文書ファイルを、前記入力されたキーワード及び前記予測された対応キーワードにより検索する、請求項6に記載の文書検索装置。
  8.  前記対応キーワードは、
     前記対応キーワードと対応付けられたキーワードに前記文字認識処理を施した結果として誤認識された文字を含む文字列である、請求項1ないし7の何れか一項に記載の文書検索装置。
  9.  文書検索装置と、端末装置とを有する文書検索システムであって、
     前記文書検索装置は、
     キーワードの入力を受け付ける入力受付部と、
     手書き文書の文書画像データに文字認識処理を施し、テキストデータとした文書ファイルと、前記手書き文書の文字を記入した記入者名と、が格納されたデジタル文書データベースから、前記記入者名と前記文書ファイルとを取得する文書取得部と、
     記入者名と、キーワードと、対応キーワードとを対応付けた情報が格納された対応キーワードデータベースを参照し、前記入力受付部から入力されたキーワードと、前記文書取得部により取得された記入者名とから、前記入力されたキーワードの対応キーワードを取得する対応キーワード取得部と、
     前記文書取得部により取得された文書ファイルを、前記入力されたキーワード及び取得された対応キーワードにより検索する文書検索部と、
     前記文書検索部による検索結果を前記端末装置に出力する検索結果出力部と、を有する文書検索システム。
  10.  キーワードの入力を受け付ける処理と、
     手書き文書の文書画像データに文字認識処理を施し、テキストデータとした文書ファイルと、前記手書き文書の文字を記入した記入者名と、が格納されたデジタル文書データベースから、前記記入者名と前記文書ファイルとを取得する処理と、
     記入者名と、キーワードと、対応キーワードとを対応付けた情報が格納された対応キーワードデータベースを参照し、入力されたキーワードと、取得された記入者名とから、前記入力されたキーワードの対応キーワードを取得する処理と、
     前記取得された文書ファイルを、前記入力されたキーワード及び取得された対応キーワードにより検索する処理と、
     検索結果を出力する処理と、をコンピュータに実行させる文書検索プログラム。
  11.  コンピュータによる文書検索方法であって、前記コンピュータが、
     キーワードの入力を受け付ける手順と、
     手書き文書の文書画像データに文字認識処理を施し、テキストデータとした文書ファイルと、前記手書き文書の文字を記入した記入者名と、が格納されたデジタル文書データベースから、前記記入者名と前記文書ファイルとを取得する手順と、
     記入者名と、キーワードと、対応キーワードとを対応付けた情報が格納された対応キーワードデータベースを参照し、入力されたキーワードと、取得された記入者名とから、前記入力されたキーワードの対応キーワードを取得する手順と、
     前記取得された文書ファイルを、前記入力されたキーワード及び取得された対応キーワードにより検索する手順と、
     検索結果を出力する手順と、を有する文書検索方法。






     
PCT/JP2020/005167 2019-02-14 2020-02-10 文書検索装置、文書検索システム、文書検索プログラム及び文書検索方法 WO2020166569A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202080013528.6A CN113474767B (zh) 2019-02-14 2020-02-10 文件检索装置、文件检索系统、文件检索程序及文件检索方法
US17/310,439 US11797551B2 (en) 2019-02-14 2020-02-10 Document retrieval apparatus, document retrieval system, document retrieval program, and document retrieval method
JP2020572250A JP6963126B2 (ja) 2019-02-14 2020-02-10 文書検索装置、文書検索システム、文書検索プログラム及び文書検索方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019024821 2019-02-14
JP2019-024821 2019-02-14

Publications (1)

Publication Number Publication Date
WO2020166569A1 true WO2020166569A1 (ja) 2020-08-20

Family

ID=72044904

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/005167 WO2020166569A1 (ja) 2019-02-14 2020-02-10 文書検索装置、文書検索システム、文書検索プログラム及び文書検索方法

Country Status (5)

Country Link
US (1) US11797551B2 (ja)
JP (1) JP6963126B2 (ja)
CN (1) CN113474767B (ja)
TW (1) TW202040414A (ja)
WO (1) WO2020166569A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022030150A (ja) * 2020-08-06 2022-02-18 株式会社リコー 情報処理装置、情報処理方法、情報処理プログラム、情報処理システム
US20220318284A1 (en) * 2020-12-31 2022-10-06 Proofpoint, Inc. Systems and methods for query term analytics

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1027235A (ja) * 1996-07-12 1998-01-27 Fuji Photo Film Co Ltd 画像情報の管理方法および装置
JPH10207988A (ja) * 1996-11-20 1998-08-07 Matsushita Electric Ind Co Ltd 文字認識方法および文字認識装置
JP2015032017A (ja) * 2013-07-31 2015-02-16 京セラドキュメントソリューションズ株式会社 画像形成装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0863487A (ja) * 1994-08-25 1996-03-08 Toshiba Corp 文書検索方法及び文書検索装置
JP3720873B2 (ja) 1995-06-19 2005-11-30 新日鉄ソリューションズ株式会社 手書き文字認識方法及びその装置
JP3299875B2 (ja) * 1995-11-27 2002-07-08 シャープ株式会社 文字処理装置
JP3307336B2 (ja) * 1998-09-02 2002-07-24 日本電気株式会社 文書検索方法および文書検索装置並びに文書検索プログラムを記録した記録媒体
US6944344B2 (en) * 2000-06-06 2005-09-13 Matsushita Electric Industrial Co., Ltd. Document search and retrieval apparatus, recording medium and program
CN1497479A (zh) * 2002-10-17 2004-05-19 松下电器产业株式会社 可进行精度比以前高的检索的数据检索装置
JP4366108B2 (ja) * 2003-04-30 2009-11-18 キヤノン株式会社 文書検索装置、文書検索方法及びコンピュータプログラム
JP4461769B2 (ja) * 2003-10-29 2010-05-12 株式会社日立製作所 文書検索・閲覧手法及び文書検索・閲覧装置
JP2005258577A (ja) 2004-03-09 2005-09-22 Olympus Corp 文字入力装置、文字入力方法、文字入力プログラム及び記録媒体
JP4750476B2 (ja) * 2005-06-07 2011-08-17 キヤノン株式会社 文書検索装置及び方法と記憶媒体
JP2009217406A (ja) * 2008-03-07 2009-09-24 Nec Corp 文書検索装置及び方法、並びに、プログラム
CN101751430A (zh) * 2008-12-12 2010-06-23 汉王科技股份有限公司 电子词典模糊检索方法
JP2011065597A (ja) * 2009-09-18 2011-03-31 Casio Computer Co Ltd データ検索装置、データ検索方法及びプログラム
US8566349B2 (en) * 2009-09-28 2013-10-22 Xerox Corporation Handwritten document categorizer and method of training
JP2012079159A (ja) * 2010-10-04 2012-04-19 Kansai Electric Power Co Inc:The 検索装置、検索プログラム、及び検索方法
US10318804B2 (en) * 2014-06-30 2019-06-11 First American Financial Corporation System and method for data extraction and searching
KR101800975B1 (ko) * 2016-10-27 2017-11-23 주식회사 매직핑거 필기체가 인식되어 생성된 전자문서의 공유 방법 및 그 장치
US20190108276A1 (en) * 2017-10-10 2019-04-11 NEGENTROPICS Mesterséges Intelligencia Kutató és Fejlesztõ Kft Methods and system for semantic search in large databases
CN115917527A (zh) * 2020-07-22 2023-04-04 昭和电工株式会社 文档检索装置、文档检索系统、文档检索程序、以及文档检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1027235A (ja) * 1996-07-12 1998-01-27 Fuji Photo Film Co Ltd 画像情報の管理方法および装置
JPH10207988A (ja) * 1996-11-20 1998-08-07 Matsushita Electric Ind Co Ltd 文字認識方法および文字認識装置
JP2015032017A (ja) * 2013-07-31 2015-02-16 京セラドキュメントソリューションズ株式会社 画像形成装置

Also Published As

Publication number Publication date
CN113474767A (zh) 2021-10-01
JPWO2020166569A1 (ja) 2021-11-25
CN113474767B (zh) 2023-09-01
US11797551B2 (en) 2023-10-24
TW202040414A (zh) 2020-11-01
JP6963126B2 (ja) 2021-11-05
US20220019581A1 (en) 2022-01-20

Similar Documents

Publication Publication Date Title
Peterson Computer programs for spelling correction: an experiment in program design
US8468167B2 (en) Automatic data validation and correction
US8676820B2 (en) Indexing and search query processing
US8005819B2 (en) Indexing and searching product identifiers
US9501455B2 (en) Systems and methods for processing data
WO2005124599A2 (en) Content search in complex language, such as japanese
JP2006085733A (ja) ファイリング・検索装置およびファイリング・検索方法
CN101611406A (zh) 文档存档系统
WO2020166569A1 (ja) 文書検索装置、文書検索システム、文書検索プログラム及び文書検索方法
US20220335073A1 (en) Fuzzy searching using word shapes for big data applications
CN101689198A (zh) 使用规格化串的语音搜索
JP6884930B2 (ja) 文書検索装置、文書検索プログラム、文書検索方法
Lu et al. A metadata generation system for scanned scientific volumes
US20090327210A1 (en) Advanced book page classification engine and index page extraction
Souza et al. ARCTIC: metadata extraction from scientific papers in pdf using two-layer CRF
JP3768743B2 (ja) ドキュメント画像処理装置及びドキュメント画像処理方法
JP2586372B2 (ja) 情報検索装置及び情報検索方法
Kooli et al. Semantic label and structure model based approach for entity recognition in database context
EP1072986A2 (en) System and method for extracting data from semi-structured text
JP2932667B2 (ja) 情報の検索方法および情報蓄積装置
US20040083242A1 (en) Method and apparatus for locating and transforming data
Batjargal Recognizing Kuzushiji in Japanese Historical Documents――International ARC Seminar Review
Liu et al. An unsupervised method for extracting domain-specific affixes in biological literature
Downton et al. Interactive archive card index conversion and verification
JPH11306198A (ja) 検索データベース構築方法及び検索データ構築システム並びに記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20756068

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020572250

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20756068

Country of ref document: EP

Kind code of ref document: A1